Bilibili发布 IndexTTS2:情感可控、时长可控的零样本语音合成模型

Bilibili 团队近日公布了全新开源语音合成模型 IndexTTS2。该模型在保持自回归大规模 TTS(Text-to-Speech)自然度优势的同时,引入了时长可控机制,主要面向需要严格音画同步的场景,如视频配音。

据介绍,IndexTTS2 支持两种生成模式:

一种可通过明确指定生成的 token 数实现精确时长控制;

另一种则自由生成,保持输入提示的韵律特征。

模型在设计上实现了情感表达与音色的解耦,使得用户可在零样本条件下独立控制说话者音色与情感风格。其训练过程结合 GPT 潜在表示,并采用三阶段训练范式以提升稳定性。同时,团队还通过微调 Qwen3 引入基于文本描述的“软指令”机制,降低了情感控制的门槛。

在多项数据集评测中,IndexTTS2 在词错误率、说话人相似度和情感保真度等指标上均优于现有零样本 TTS 模型。

Github
GitHub
GitHub - index-tts/index-tts: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System - index-tts/index-tts


via LoopDNS资讯播报 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]