Bilibili发布 IndexTTS2：情感可控、时长可控的零样本语音合成模型Bilibili 团队近日公布了全新开源语音合成模型 IndexTTS2

Bilibili发布 IndexTTS2：情感可控、时长可控的零样本语音合成模型

Bilibili 团队近日公布了全新开源语音合成模型 IndexTTS2。该模型在保持自回归大规模 TTS（Text-to-Speech）自然度优势的同时，引入了时长可控机制，主要面向需要严格音画同步的场景，如视频配音。

据介绍，IndexTTS2 支持两种生成模式：

一种可通过明确指定生成的 token 数实现精确时长控制；

另一种则自由生成，保持输入提示的韵律特征。

模型在设计上实现了情感表达与音色的解耦，使得用户可在零样本条件下独立控制说话者音色与情感风格。其训练过程结合 GPT 潜在表示，并采用三阶段训练范式以提升稳定性。同时，团队还通过微调 Qwen3 引入基于文本描述的“软指令”机制，降低了情感控制的门槛。

在多项数据集评测中，IndexTTS2 在词错误率、说话人相似度和情感保真度等指标上均优于现有零样本 TTS 模型。

Github

GitHub
GitHub - index-tts/index-tts: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System - index-tts/index-tts

via LoopDNS资讯播报 - Telegram Channel