百度发布新一代文字识别模型飞桨OCRv5:轻量高效,部分测试超越GPT-4o

百度在 Hugging Face 发布新一代文字识别解决方案飞桨OCRv5。该模型参数量仅0.07B,能在CPU及边缘设备上高效运行,其移动版在英特尔Xeon Gold 6271C CPU上每秒可处理370余字符。

飞桨OCRv5采用模块化两阶段流程,解决大型视觉语言模型在文本定位和边界框精度上的不足。在OCR特定基准测试中,其表现优于Gemini 2.5 Pro、Qwen2.5-VL和GPT-4o,覆盖手写、印刷中英文及拼音。模型支持简体中文、繁体中文、英文、日文和拼音,能识别40余种语言。

HuggingFace

🍀在花频道 🍵茶馆 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]