小米开源首个原生端到端语音大模型小米公司今日正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的 “涌现” 行为

小米开源首个原生端到端语音大模型

小米公司今日正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的 “涌现” 行为。小米称，得益于创新模型结构 + 上亿小时数据预训练 + 轻量后训练，该模型性能亮眼。在通用语音理解及对话等多项标准评测基准中，大幅超越了同参数量的开源模型，取得7B最佳性能。在音频理解基准MMAU的标准测试集上，超过谷歌 Gemini-2.5-Flash 。在面向音频复杂推理的基准Big Bench Audio S2T任务中，同样超越了 OpenAI GPT-4o-Audio-Preview。

—— 小米

via 风向旗参考快讯 - Telegram Channel