VITS | TTS Center

VITS（Variational Inference with Adversarial Learning for End-to-End Text-to-Speech）由韩国首尔大学的 Jaehyeon Kim（jaywalnut310）等人提出，是语音合成模型领域中具有里程碑意义的经典工作。VITS 首次提出将变分自编码器（VAE）与对抗训练结合的端到端架构，实现了从文本直接到波形的单阶段合成，跳过了传统两阶段方案（声学模型 + 声码器）中繁琐的中间表示。这一设计使得 VITS 在合成速度和质量上都达到了当时的最优水平，论文发表于 ICML 2021。

在架构上，VITS 的核心是一个条件 VAE，包含后验编码器、先验编码器、流式解码器以及与 HiFi-GAN 结合的对抗判别器。训练时通过变分下界和对抗损失联合优化，推理时仅需一次前向传播即可生成高保真音频。VITS 原生支持多说话人训练和多语言数据集，在同等训练条件下其合成质量显著优于 Tacotron 2 + WaveGlow 等传统组合。项目采用 MIT 许可证，代码简洁清晰，自发布以来一直被视为了解端到端开源 TTS 架构的最佳实践。

VITS 的影响力远超其自身——许多后续热门语音合成模型项目（包括 VITS2、Bert-VITS2、GPT-SoVITS 的部分组件）都在其架构基础上进行改进和扩展。项目的 PyTorch 实现、详细的训练指引和预处理脚本让研究者和开发者能够快速复现结果并适配到新的语言和场景。尽管 VITS 本身不包含显式的语音克隆或情感控制功能，但它奠定的端到端范式深刻改变了 TTS 研究的方向，至今仍是 Github 上最常用的 TTS 基础架构之一。