🚀 DeepSeek 发布 OCR-2 模型支持多场景识别DeepSeek 在 Hugging Face 平台正式发布 DeepSeek-OCR-2 光学字符识别模型

🚀 DeepSeek 发布 OCR-2 模型支持多场景识别

DeepSeek 在 Hugging Face 平台正式发布 DeepSeek-OCR-2 光学字符识别模型。该模型支持动态分辨率处理，默认配置为 (0-6)×768×768 结合 1×1024×1024 分辨率，涵盖文档转换、图像 OCR 及图表解析等多种功能。技术架构方面，模型基于 transformers 框架开发，要求 Python 3.12.9 与 CUDA 11.8 运行环境，并支持 NVIDIA GPU 推理。用户可通过不同提示词实现文档转 Markdown 等操作。目前，项目已在 GitHub 发布关于模型推理加速及 PDF 处理的详细指导。

(科技圈)

via 茶馆 - Telegram Channel