DeepSeek-AI团队发布《DeepSeek-OCR: Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。该模型由DeepEncoder与DeepSeek3B-MoE组成,可将文本信息映射为二维图像并高效解码,实现10倍压缩下97%识别精度,20倍压缩仍保持约60%。在OmniDocBench基准上,DeepSeek-OCR以更少视觉Token数量超越GOT-OCR2.0与MinerU2.0,具备大规模生成训练数据的能力。研究展示了视觉模态在长上下文压缩及记忆遗忘机制中的潜力。
来源:Github / HuggingFace
via LoopDNS资讯播报 - Telegram Channel