IndexTTS：一款出自B站的开源级工业级高效文本转语音（TTS）系统

IndexTTS是由B站开源的一款工业级可控高效的零样本文本到语音（TTS）系统。它基于XTTS和Tortoise模型开发，并在多个模块上进行了优化和改进。IndexTTS在中文场景中引入了字符-拼音混合建模方法，能够快速纠正错读，并通过标点符号控制停顿。

1、中文多音字纠正：

在中文场景中，IndexTTS采用字符-拼音混合建模方法，用户可以通过输入拼音纠正多音字的发音错误。

2、音质优化：

IndexTTS集成了BigVGAN2语音解码器，显著提升了音质和音色相似度。其音色相似度评分高达0.776。

3、零样本语音克隆：

IndexTTS在零样本语音克隆方面表现出色，MOS评分高达4.01，远超现有系统。

4、高效训练与推理：

IndexTTS采用Conformer条件编码器和BigVGAN2解码器，提高了训练稳定性、内容一致性和推理速度。

5、自然度和内容一致性提升：

相比XTTS和其他开源TTS系统，IndexTTS在自然度、内容一致性和零样本语音克隆方面取得了显著提升。

6、多场景适用：

IndexTTS适用于多种场景，包括但不限于视频字幕生成、有声读物制作和实时语音交互。

2、演示与测试集：https://index-tts.github.io/