B站开源IndexTTS-2.0: 突破自回归TTS时长与情感控制瓶颈

近日，哔哩哔哩（B站）Index团队正式宣布，其自主研发的情感可控、时长可调的自回归零样本文本转语音（TTS）系统——IndexTTS-2.0，已全面开源。

该系统的发布被广泛视为零样本TTS技术迈向实用化阶段的关键里程碑。

在语音合成领域，精准的时长控制与自然的情感表达一直是长期存在的技术难题。

IndexTTS-2.0 在这一背景下推出两项核心创新：

时间编码机制：首次在自回归TTS架构中引入时间编码，有效解决了传统模型在语音时长控制上精度不足的问题，实现了更稳定、更自然的语音节奏调控；

音色与情感解耦建模：通过创新性的解耦建模方式，系统支持多维度灵活的情感调节。用户不仅可基于单一音频参考，还能通过独立的情感参考音频、情感向量或文本描述等多种方式，精准调控合成语音的情感表达，显著提升生成语音的表现力与适用性。

基于上述技术架构，IndexTTS-2.0在语音生成方面表现出极高的灵活性。

从官方示例来看，该系统可广泛应用于AI配音、有声读物、动态漫画、视频翻译、语音对话及播客制作等多种场景，极大拓展了语音合成技术的创作与应用边界。

尤其值得关注的是，IndexTTS-2.0为全球内容出海提供了重要技术支撑。

凭借高质量的情感复现与精准的时长匹配，跨语言视频可实现近乎“无差别”的本地化体验。

无论是海外用户观看中文视频，还是中文用户聆听外语内容，均能在保留原声风格与情感的基础上，获得更加自然、沉浸的听觉体验。

这一突破不仅大幅降低了优质内容跨语言传播的门槛，也为AIGC技术在全球范围内的落地提供了坚实基础。

目前，IndexTTS-2.0 已同步开源项目论文、完整代码、模型权重及在线体验页面。

IndexTTS团队表示，未来将持续推进模型性能优化，并逐步释放更多资源与工具，与开发者社区共同构建开放、繁荣的语音技术生态，助力推动多语种交流与全球文化互联互通。

GitHub地址：

GitHub - index-tts/index-tts: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

论文地址：

[2506.21619] IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

Demo展示地址：

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

模型下载地址：

魔搭社区｜IndexTTS-2Hugging Face| IndexTTS-2

在线体验地址：

https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

— 完 —

量子位 QbitAI · 头条号

关注我们，第一时间获知前沿科技动态