科技圈🎗在花频道📮:
🤖 DeepSeek 上新识图功能,多模态推出 🌸 在花频道 · 茶馆讨论 · 投稿通道
DeepSeek 发布视觉基元推理报告,解决多模态 Reference Gap
2026 年 4 月 30 日,DeepSeek 公开技术报告《Thinking with Visual Primitives》,提出将点、框等视觉基元作为思维最小单元交错嵌入推理链,解决复杂结构推理中的 Reference Gap。方法基于 DeepSeek-V4-Flash 架构,压缩 KV 缓存,以极低图像 token 消耗完成推理。在计数和空间推理基准上,该模型性能与 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 相当(论文强调仅覆盖部分相关维度,不代表整体能力)。未来将开源内部基准、部分冷启动数据,权重将整合至基础模型后发布。
GitHub
🌸 在花频道 · 茶馆讨论 · 投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel