ChatTTS

GitHub ⭐ 32000许可:CC BY-NC 4.0模型类型:对话式 TTS

专为对话场景设计的 TTS 模型,支持细粒度韵律控制和多说话人,中英语音质量极高。

中文英语
中文对话韵律开源模型

ChatTTS 是 2024 年最受关注的开源 TTS 项目之一,由 2noise 团队开发,专为对话场景设计。该项目在 GitHub 上短时间内获得了超过 3 万颗星标,成为中文语音合成模型领域的标杆之作。ChatTTS 的核心创新在于将韵律建模与对话场景深度融合——模型不仅关注发音准确性,更注重语调的自然起伏、停顿节奏以及多说话人切换的流畅性,让合成语音听起来像是真实人类之间的交谈。

在架构层面,ChatTTS 采用了基于大规模对话数据训练的端到端框架,覆盖超过 10 万小时的中英文语音数据。模型内置了细粒度的韵律控制机制,开发者可以通过韵律标记(prosody tags)精确调节语速、停顿和重音位置,甚至可以插入笑声、清嗓等非语言声音效果。此外,ChatTTS 支持为不同对话角色分配不同的说话人音色,能在一段对话中自动切换多个角色,这在教育、有声书和虚拟主播等场景中具有极大的应用潜力。

凭借极简的 Python API,开发者只需几行代码即可将 ChatTTS 集成到语音助手、聊天机器人或 AI 陪聊等应用中。不过需要注意的是,ChatTTS 采用 CC BY-NC 4.0 许可证,限制了商业使用场景。虽然模型在中文对话场景表现出色,但在处理长篇朗读、播报式语音或专业术语时效果仍不及传统 TTS 系统。总体而言,ChatTTS 重新定义了对话式语音合成的天花板,是开源 TTS 社区近年的重要里程碑。