DeepSeek团队发布视觉压缩OCR模型

DeepSeek-AI团队发布《DeepSeek-OCR: Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。该模型由DeepEncoder与DeepSeek3B-MoE组成,可将文本信息映射为二维图像并高效解码,实现10倍压缩下97%识别精度,20倍压缩仍保持约60%。在OmniDocBench基准上,DeepSeek-OCR以更少视觉Token数量超越GOT-OCR2.0与MinerU2.0,具备大规模生成训练数据的能力。研究展示了视觉模态在长上下文压缩及记忆遗忘机制中的潜力。

来源:Github / HuggingFace

via LoopDNS资讯播报 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]