月之暗面(Moonshot AI)推出 Attention Residuals 技术,对 Transformer 架构进行改进,使每一层能够选择性地关注此前各层的输出,而非统一求和。该技术已应用于其 48B 参数的 Kimi Linear 模型,其达到相同性能所需的算力比基线少约 20%,同时在 GPQA-Diamond 推理基准上提升 7.5 分,编程与数学能力亦有所提升。
据论文介绍,该技术训练额外开销低于 4%,推理延迟增加不超过 2%,并通过改善梯度流缓解了"PreNorm 稀释"问题。前 OpenAI 研究科学家 Andrej Karpathy 对此给予正面评价,称其更字面地践行了"Attention is All You Need"的理念。
月之暗面
🍀在花频道 🍵茶馆聊天 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel