TTS 开源项目

汇集 GitHub 上优秀的 TTS 开源项目，持续更新。

Suno AI 开源的 Transformer 文本转音频模型，不仅能合成语音，还能生成笑声、叹息、音乐和背景音效。

专为对话场景设计的 TTS 模型，支持细粒度韵律控制和多说话人，中英语音质量极高。

知名端到端 TTS 框架，提供 XTTS 多语言语音克隆能力，支持模型训练与微调，社区生态丰富。

阿里通义实验室开源的流式 TTS 大模型，支持语音克隆、情感控制和跨语言合成。

基于 Flow Matching 的新一代非自回归 TTS 模型，推理速度极快，音质出色。

基于 VQ-GAN 和语言模型的创新 TTS 框架，支持多语言、语音克隆和实时推理，社区活跃。

少样本语音克隆的里程碑项目，融合 GPT 和 SoVITS 架构，仅需 1 分钟音频即可克隆语音。

MyShell 开源的轻量级中文 TTS 模型，支持 CPU 实时推理，特别适合端侧部署。

MyShell 开源的语音克隆框架，支持细粒度的音色和风格控制，只需短音频即可克隆。

经典的端到端 TTS 模型，单阶段 VAE 架构，直接文本到波形输出，是后续众多 TTS 项目的基础。