📱 微软发布 3 款自研 AI 模型，覆盖转写、语音和图像生成微软 4 月 2 日发布 3 款完全自研的基础 AI 模型，分别是语音转写模型 MAI-Transcribe-1、语音生成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2，已通过 Microsoft Foundry 和新的 MAI Playground 上线

📱 微软发布 3 款自研 AI 模型，覆盖转写、语音和图像生成

微软 4 月 2 日发布 3 款完全自研的基础 AI 模型，分别是语音转写模型 MAI-Transcribe-1、语音生成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2，已通过 Microsoft Foundry 和新的 MAI Playground 上线。三款模型分别覆盖语音转文本、文本转语音和图像生成，面向企业 AI 中最具商业价值的几类应用。

在独家采访中，微软称 MAI-Transcribe-1 在 FLEURS 多语言基准测试覆盖的 25 种主要语言上平均词错误率为 3.8 ％，并在这 25 种语言上全面领先 OpenAI 的 Whisper-large-v3；MAI-Voice-1 可在 1 秒内生成 60 秒语音，并支持用数秒音频定制声音；MAI-Image-2 在 Foundry 和 Copilot 中的生成速度较前代至少提升 2 倍，已开始向 Bing 和 PowerPoint 推出。

VentureBeat | MAI Playground

🌸 在花频道｜茶馆讨论｜投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel