智谱开源0.9B参数规模的GLM-OCR模型

智谱正式发布并开源了 GLM-OCR。据官方介绍,该模型仅0.9B参数规模,支持vLLM、SGLang 和 Ollama部署,在公式识别、表格识别、信息抽取等主流基准中均取得 SOTA 表现。该模型针对手写体、复杂表格、代码文档、印章识别及多语言混排等场景进行了优化。在效率方面,其处理PDF文档的吞吐量可达1.86页/秒。通过API调用,其定价为0.2元/百万Tokens。该模型采用 “编码器-解码器” 架构,集成了自研的CogViT视觉编码器,并采用 “版面分析→并行识别” 的两阶段技术流程。模型完整SDK与推理工具链已同步开源,适用于高并发及边缘计算场景。

—— 凤凰网科技智谱

via 风向旗参考快讯 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]