GPT-SoVITS | TTS Center

GPT-SoVITS 是 RVC-Boss 团队开发的少样本语音克隆项目，以超过 4 万 GitHub 星标成为开源 TTS 社区最热门的项目之一。它的核心思想非常巧妙——将 GPT 的强大语言建模能力与 SoVITS（基于 VITS 改进的声学模型）结合：GPT 负责将文本转换为语义 token 序列，SoVITS 再将这些 token 与参考音频的声学特征融合，生成与目标说话人一致的语音。这一双模块设计让模型仅需短短 1 分钟参考音频，就能实现令人惊叹的语音克隆效果。

GPT-SoVITS 对中文语音合成模型领域的影响尤为深远。项目提供了极其友好的 WebUI 操作界面，集成了自动音频切割、语音分离、ASR 标注等辅助工具，让没有深度学习背景的用户也能在几分钟内完成从数据处理到模型推理的全流程。项目采用 MIT 开源协议，支持零成本本地部署，在 6GB 显存的消费级显卡上即可流畅运行。这些设计大幅降低了语音克隆技术的使用门槛，催生了大量创意应用——从虚拟主播配音到个性化语音助手，从有声内容创作到游戏 NPC 语音生成。

尽管 GPT-SoVITS 在少样本场景下表现卓越，但在处理多说话人混合对话、高度情绪化表达或超长文本时仍会暴露出一些不稳定性。同时，语音克隆技术的易用性也引发了关于声音版权和滥用的伦理讨论。总体而言，GPT-SoVITS 以其“零门槛、高效果”的特点，重新定义了普通用户对开源 TTS 语音克隆的期待，是中文 TTS 生态中不可忽视的力量。