豆包语音大模型系列之AI说书 – 张五侠 wordpress 经书

豆包语音大模型系列中的AI说书功能，是基于豆包语音模型团队的最新技术成果。该功能通过改进的Seed-TTS框架，实现了高表现力、高自然度、高语义理解的小说演播效果，声音合成质量媲美真人。

豆包语音大模型系列之AI说书

1、无需额外标签的端到端合成：

– 传统的小说 TTS 合成方式需要提前给对话旁白、情感、角色打标签，而豆包语音模型可以做到端到端合成，无需额外标签标注。

2、改进的 Seed-TTS 技术：

– 在数据处理上，音频做章节级别处理，保证了长文下的语音一致性和连贯性。

– 在特征融合上，结合原始文本和前端信息，提升发音和韵律的自然度。

– 在结构上，将 speech tokenizer 改为 speaker embedding，解除 reference audio 对语音风格的限制，使同一个发音人能在不同角色上作出更贴合人设的演绎。

– 在目标合成文本之外，额外加入上下文信息，使得模型能够感知更大范围的语义信息，旁白和角色音表现更精准到位。

3、高表现力和自然度：

– 经过专业评测，优化后的豆包语音模型在小说演播场景中，CMOS（Comparative Mean Opinion Score）已达一流主播的 90%+ 效果。

4、多角色演绎和情感表达：

– 模型能够精确表达角色情感，区分不同角色的音色和情感，实现连续多轮对话，保证角色区分鲜明。

5、技术落地与应用：

– 以王明军、李满超两位演播圈大咖的声音为基础，采用新技术合成的千部有声书已上线番茄小说，覆盖历史、悬疑、灵异、都市、脑洞、科幻等热门书目类型。