9 月 19 日,小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio,该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练中观察到明显的"涌现"行为。
在多项标准评测中,MiMo-Audio 大幅超越同参数量开源模型,取得 7B 最佳性能。在音频理解基准 MMAU 标准测试集上超过 Google 闭源语音模型 Gemini-2.5-Flash,在 Big Bench Audio S2T 任务中超越 OpenAI 闭源语音模型 GPT-4o-Audio-Preview。
新浪科技 | Hugging Face
🍀在花频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel