小米发布全模态基座模型MiMo-V2-Omni
小米发布面向 Agent 时代的全模态基座模型Xiaomi MiMo-V2-Omni。该模型从底层构建融合文本、视觉、语音的全模态架构,将感知与行动深度绑定,原生支持多模态感知、工具调用、函数执行及 GUI 操作能力。据官方介绍,MiMo-V2-Omni 在音频理解方面支持环境声分类、多说话人分离、音频-视觉联合推理及超10小时长音频理解,综合表现超越Gemini 3 Pro 。图像理解方面,在多学科视觉推理与复杂图表分析任务中超越Claude Opus 4.6,逼近 Gemini 3 Pro 等闭源AI模型水平。视频理解方面支持原生音视频联合输入,具备情境感知与未来推理能力。
—— 凤凰网科技
via 风向旗参考快讯 - Telegram Channel
小米发布面向 Agent 时代的全模态基座模型Xiaomi MiMo-V2-Omni。该模型从底层构建融合文本、视觉、语音的全模态架构,将感知与行动深度绑定,原生支持多模态感知、工具调用、函数执行及 GUI 操作能力。据官方介绍,MiMo-V2-Omni 在音频理解方面支持环境声分类、多说话人分离、音频-视觉联合推理及超10小时长音频理解,综合表现超越Gemini 3 Pro 。图像理解方面,在多学科视觉推理与复杂图表分析任务中超越Claude Opus 4.6,逼近 Gemini 3 Pro 等闭源AI模型水平。视频理解方面支持原生音视频联合输入,具备情境感知与未来推理能力。
—— 凤凰网科技
via 风向旗参考快讯 - Telegram Channel