F5-TTS
基于 Flow Matching 的新一代非自回归 TTS 模型,推理速度极快,音质出色。
中文英语
非自回归高保真流匹配扩散模型快速推理
F5-TTS 是 2024 年由 SWivid 团队提出的一种基于 Flow Matching 的非自回归语音合成模型,代表了扩散模型在 TTS 领域的最新进展。与传统的自回归模型(如 Tacotron 系列)需要逐帧生成语音不同,F5-TTS 通过流匹配(Flow Matching)技术一次性并行生成整个音频序列,大幅提升了推理速度。在技术路径上,F5-TTS 借鉴了图像生成领域扩散模型的成功经验,将 Flow Matching 框架与文本到语音的时序建模需求相结合,实现了高保真、高效率的语音合成。
在架构设计上,F5-TTS 采用了非自回归的 Transformer 骨干网络,通过条件流匹配(Conditional Flow Matching, CFM)来学习从简单分布(如高斯噪声)到目标语音分布的映射路径。这种设计避免了自回归模型中常见的误差累积和推理延迟问题,同时保持了扩散模型在生成质量上的优势。F5-TTS 还提出了 Sway Sampling 策略来优化推理步数,使得在仅需 10-15 步采样就能达到接近真实录音的音频质量,推理速度比传统的扩散 TTS 模型快数倍。
F5-TTS 目前主要支持中文和英语两种语言的语音合成,在自然度和清晰度方面表现出色,尤其适合需要快速生成高质量语音的场景,如实时语音助手、短视频配音和有声内容生产。项目的代码结构清晰,提供了完整的训练脚本和预训练模型权重,方便开发者进行二次开发和微调。不过需要注意的是,F5-TTS 采用 CC BY-NC-SA 4.0 许可证,限制了商业使用,且目前支持的语言种类相对有限,在多语言场景下仍有扩展空间。