大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相
MiniMax M2系列模型在输出“马嘉祺”时出现异常,经排查发现是后训练阶段低频Token退化所致。分词器将“嘉祺”合并为独立Token,但因后训练样本不足,该Token被高频Token挤压偏移,导致模型无法正确输出,转而生成音近词。扫描显示4.9%的Token退化,其中日语退化率高达29.7%,并伴随SEO垃圾词遗忘。MiniMax通过全词表合成数据、混入预训练语料及词表监控三项策略修复,显著提升参数稳定性。
via Infinitum 资讯聚合 (author: AI Base)
MiniMax M2系列模型在输出“马嘉祺”时出现异常,经排查发现是后训练阶段低频Token退化所致。分词器将“嘉祺”合并为独立Token,但因后训练样本不足,该Token被高频Token挤压偏移,导致模型无法正确输出,转而生成音近词。扫描显示4.9%的Token退化,其中日语退化率高达29.7%,并伴随SEO垃圾词遗忘。MiniMax通过全词表合成数据、混入预训练语料及词表监控三项策略修复,显著提升参数稳定性。
via Infinitum 资讯聚合 (author: AI Base)