DeepSeek团队发布视觉压缩OCR模型DeepSeek-AI团队发布《DeepSeek-OCR: Contexts Optical Compression》论文，提出利用视觉模态压缩长文本上下文的新方法

DeepSeek团队发布视觉压缩OCR模型

DeepSeek-AI团队发布《DeepSeek-OCR: Contexts Optical Compression》论文，提出利用视觉模态压缩长文本上下文的新方法。该模型由DeepEncoder与DeepSeek3B-MoE组成，可将文本信息映射为二维图像并高效解码，实现10倍压缩下97%识别精度，20倍压缩仍保持约60%。在OmniDocBench基准上，DeepSeek-OCR以更少视觉Token数量超越GOT-OCR2.0与MinerU2.0，具备大规模生成训练数据的能力。研究展示了视觉模态在长上下文压缩及记忆遗忘机制中的潜力。

来源：Github / HuggingFace

via LoopDNS资讯播报 - Telegram Channel