Fish Speech
基于 VQ-GAN 和语言模型的创新 TTS 框架,支持多语言、语音克隆和实时推理,社区活跃。
中文英语日语韩语法语德语
多语言高质量实时语音克隆
Fish Speech 是 Fish Audio 团队推出的新一代开源 TTS 框架,融合了 VQ-GAN 离散化编码与自回归语言模型的强大生成能力。这一架构设计使 Fish Speech 从众多语音合成模型中脱颖而出——VQ-GAN 将连续语音信号压缩为离散 token 序列,再交给 LLM 进行自回归预测,最后通过解码器恢复为高质量音频。这种 “音频 token 化 + 语言模型” 的路径,赋予了模型极强的泛化能力和多语言适应性。
Fish Speech 最亮眼的特性是其对多语言和语音克隆的全面支持。模型原生覆盖中文、英语、日语、韩语、法语、德语六种语言,且能够通过少量参考音频(约 10-30 秒)完成高质量的语音克隆。得益于高效的模型蒸馏和推理优化,Fish Speech 在消费级 GPU 上即可实现接近实时的推理速度,无需依赖昂贵的云端算力。项目采用 Apache 2.0 许可证,对商业使用友好,配合活跃的 Discord 社区和完善的 WebUI 界面,极大地降低了开源 TTS 技术的使用门槛。
Fish Speech 提供了 Hugging Face Space 在线演示和本地一键部署方案,用户无需深厚的技术背景即可快速体验。在语音质量方面,模型在自然度和清晰度上均达到了业界领先水平,尤其在中英日韩等主流语言上的表现令人印象深刻。当然,作为较新的语音合成模型,Fish Speech 在处理极长文本的韵律连贯性以及低资源方言方面仍有优化空间,但其活跃的更新节奏和开放的社区生态让这些痛点正在被快速解决。