↩️🖼 DeepSeek 发布视觉基元推理报告,解决多模态 Reference Gap


科技圈🎗在花频道📮:

🤖 DeepSeek 上新识图功能,多模态推出 🌸 在花频道 · 茶馆讨论 · 投稿通道

DeepSeek 发布视觉基元推理报告,解决多模态 Reference Gap

2026 年 4 月 30 日,DeepSeek 公开技术报告《Thinking with Visual Primitives》,提出将点、框等视觉基元作为思维最小单元交错嵌入推理链,解决复杂结构推理中的 Reference Gap。方法基于 DeepSeek-V4-Flash 架构,压缩 KV 缓存,以极低图像 token 消耗完成推理。在计数和空间推理基准上,该模型性能与 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 相当(论文强调仅覆盖部分相关维度,不代表整体能力)。未来将开源内部基准、部分冷启动数据,权重将整合至基础模型后发布。

GitHub

🌸 在花频道 · 茶馆讨论 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]