🚀 DeepSeek 披露新模型 MODEL1,或采用全新架构

DeepSeek 在 GitHub 更新 FlashMLA 代码时披露了代号为 MODEL1 的新模型。该代号在 114 个文件的 28 处位置出现,并与 V32 并行,预示其可能采用全新架构。技术细节显示,MODEL1 在 KV 缓存布局、稀疏性处理及 FP8 解码内存优化方面与现有模型存在差异。DeepSeek 拟于 2 月中旬春节前后发布下一代旗舰模型。

(科技圈)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]