F5-TTS | TTS Center

F5-TTS 是 2024 年由 SWivid 团队提出的一种基于 Flow Matching 的非自回归语音合成模型，代表了扩散模型在 TTS 领域的最新进展。与传统的自回归模型（如 Tacotron 系列）需要逐帧生成语音不同，F5-TTS 通过流匹配（Flow Matching）技术一次性并行生成整个音频序列，大幅提升了推理速度。在技术路径上，F5-TTS 借鉴了图像生成领域扩散模型的成功经验，将 Flow Matching 框架与文本到语音的时序建模需求相结合，实现了高保真、高效率的语音合成。

在架构设计上，F5-TTS 采用了非自回归的 Transformer 骨干网络，通过条件流匹配（Conditional Flow Matching, CFM）来学习从简单分布（如高斯噪声）到目标语音分布的映射路径。这种设计避免了自回归模型中常见的误差累积和推理延迟问题，同时保持了扩散模型在生成质量上的优势。F5-TTS 还提出了 Sway Sampling 策略来优化推理步数，使得在仅需 10-15 步采样就能达到接近真实录音的音频质量，推理速度比传统的扩散 TTS 模型快数倍。

F5-TTS 目前主要支持中文和英语两种语言的语音合成，在自然度和清晰度方面表现出色，尤其适合需要快速生成高质量语音的场景，如实时语音助手、短视频配音和有声内容生产。项目的代码结构清晰，提供了完整的训练脚本和预训练模型权重，方便开发者进行二次开发和微调。不过需要注意的是，F5-TTS 采用 CC BY-NC-SA 4.0 许可证，限制了商业使用，且目前支持的语言种类相对有限，在多语言场景下仍有扩展空间。