月之暗面发布 Attention Residuals 技术，48B 模型训练效率提升 1.25 倍月之暗面（Moonshot AI）推出 Attention Residuals 技术，对 Transformer 架构进行改进，使每一层能够选择性地关注此前各层的输出，而非统一求和

月之暗面发布 Attention Residuals 技术，48B 模型训练效率提升 1.25 倍

月之暗面（Moonshot AI）推出 Attention Residuals 技术，对 Transformer 架构进行改进，使每一层能够选择性地关注此前各层的输出，而非统一求和。该技术已应用于其 48B 参数的 Kimi Linear 模型，其达到相同性能所需的算力比基线少约 20%，同时在 GPQA-Diamond 推理基准上提升 7.5 分，编程与数学能力亦有所提升。

据论文介绍，该技术训练额外开销低于 4%，推理延迟增加不超过 2%，并通过改善梯度流缓解了"PreNorm 稀释"问题。前 OpenAI 研究科学家 Andrej Karpathy 对此给予正面评价，称其更字面地践行了"Attention is All You Need"的理念。

月之暗面

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel