B站技术团队介绍原声外语配音细节:基于自研IndexTTS2模型

B站 BILIBILI Index 团队近日推出“原声风格”视频外语配音功能,可在保留创作者原有音色、语气、节奏与情绪的同时,实现自然流畅的跨语言翻译,让观众仿佛听到本人用外语说话。

该能力基于自研 BILIBILI IndexTTS2 模型,通过音色克隆、声场一致性、多声源融合等技术,解决了传统配音中声音人格缺失、字幕干扰及本地化成本高等痛点。系统还针对多说话人场景优化说话人分割、情绪迁移与语速控制,并引入 RIVAL 对抗式强化学习框架提升翻译质量与风格适配度。在视频层面,结合字幕擦除与基于 Diffusion 的高保真唇形同步,确保音画一致与沉浸感。B站表示,未来将支持更多语言,并计划开源模型,推动多语言、跨模态内容全球化传播。

哔哩哔哩技术 | 体验页面

🍀频道🍵茶馆📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]