Bilibili 团队近日公布了全新开源语音合成模型 IndexTTS2。该模型在保持自回归大规模 TTS(Text-to-Speech)自然度优势的同时,引入了时长可控机制,主要面向需要严格音画同步的场景,如视频配音。
据介绍,IndexTTS2 支持两种生成模式:
一种可通过明确指定生成的 token 数实现精确时长控制;
另一种则自由生成,保持输入提示的韵律特征。
模型在设计上实现了情感表达与音色的解耦,使得用户可在零样本条件下独立控制说话者音色与情感风格。其训练过程结合 GPT 潜在表示,并采用三阶段训练范式以提升稳定性。同时,团队还通过微调 Qwen3 引入基于文本描述的“软指令”机制,降低了情感控制的门槛。
在多项数据集评测中,IndexTTS2 在词错误率、说话人相似度和情感保真度等指标上均优于现有零样本 TTS 模型。
Github
GitHub
GitHub - index-tts/index-tts: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System - index-tts/index-tts
via LoopDNS资讯播报 - Telegram Channel