Fish Speech | TTS Center

Fish Speech 是 Fish Audio 团队推出的新一代开源 TTS 框架，融合了 VQ-GAN 离散化编码与自回归语言模型的强大生成能力。这一架构设计使 Fish Speech 从众多语音合成模型中脱颖而出——VQ-GAN 将连续语音信号压缩为离散 token 序列，再交给 LLM 进行自回归预测，最后通过解码器恢复为高质量音频。这种 “音频 token 化 + 语言模型” 的路径，赋予了模型极强的泛化能力和多语言适应性。

Fish Speech 最亮眼的特性是其对多语言和语音克隆的全面支持。模型原生覆盖中文、英语、日语、韩语、法语、德语六种语言，且能够通过少量参考音频（约 10-30 秒）完成高质量的语音克隆。得益于高效的模型蒸馏和推理优化，Fish Speech 在消费级 GPU 上即可实现接近实时的推理速度，无需依赖昂贵的云端算力。项目采用 Apache 2.0 许可证，对商业使用友好，配合活跃的 Discord 社区和完善的 WebUI 界面，极大地降低了开源 TTS 技术的使用门槛。

Fish Speech 提供了 Hugging Face Space 在线演示和本地一键部署方案，用户无需深厚的技术背景即可快速体验。在语音质量方面，模型在自然度和清晰度上均达到了业界领先水平，尤其在中英日韩等主流语言上的表现令人印象深刻。当然，作为较新的语音合成模型，Fish Speech 在处理极长文本的韵律连贯性以及低资源方言方面仍有优化空间，但其活跃的更新节奏和开放的社区生态让这些痛点正在被快速解决。