Coqui TTS | TTS Center

Coqui TTS 的前身是 Mozilla TTS 项目，最初由 Mozilla 开源社区主导开发，致力于用深度学习技术推动开放语音合成的发展。2021 年，核心开发团队从 Mozilla 分拆出来成立了 Coqui AI 公司，并将项目更名为 Coqui TTS，继续以开源形式维护和迭代。Coqui TTS 迅速成长为语音合成领域最全面的端到端开源框架之一，提供了从 Tacotron2、Glow-TTS 到 VITS 等众多经典模型的实现，支持研究人员和开发者快速复现、比较和部署各种 TTS 架构。

XTTS（Cross-lingual TTS）是 Coqui TTS 的旗舰功能，也是该项目最受社区关注的亮点。XTTS 能够在极少量的目标说话人音频样本（甚至仅需 6 秒）上完成语音克隆，并支持跨语言合成——即用中文语料克隆的音色，可以流利地朗读英语、日语、法语等十余种语言。XTTS 的多语言语音克隆质量在开源方案中处于领先水平，尤其在音色保真度和跨语言自然度方面表现突出，已被广泛应用于有声书制作、视频配音和虚拟角色语音定制等场景。

作为一套完整的训练框架，Coqui TTS 提供了从数据预处理、模型训练、微调到模型导出的全链路工具链。开发者可以使用自己的数据集对预训练模型进行微调，适配特定说话人、口音或领域的语音风格。框架还支持将训练好的模型导出为 ONNX 或 TensorFlow Lite 格式，便于在移动端、嵌入式设备或 Web 端部署。尽管 Coqui AI 公司已于 2023 年底停止商业运营，但项目代码仍由社区和学术机构持续维护，其丰富的模型库和文档体系依然是 TTS 学习和研究的重要资源。