月之暗面发布 Attention Residuals 技术,48B 模型训练效率提升 1.25 倍

月之暗面(Moonshot AI)推出 Attention Residuals 技术,对 Transformer 架构进行改进,使每一层能够选择性地关注此前各层的输出,而非统一求和。该技术已应用于其 48B 参数的 Kimi Linear 模型,其达到相同性能所需的算力比基线少约 20%,同时在 GPQA-Diamond 推理基准上提升 7.5 分,编程与数学能力亦有所提升。

据论文介绍,该技术训练额外开销低于 4%,推理延迟增加不超过 2%,并通过改善梯度流缓解了"PreNorm 稀释"问题。前 OpenAI 研究科学家 Andrej Karpathy 对此给予正面评价,称其更字面地践行了"Attention is All You Need"的理念。

月之暗面

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]