TTS 术语表
TTS 技术领域常用术语速查手册,持续更新。
TTS
Text-to-Speech 文本转语音,将文字内容转换为自然语音输出的技术。
Neural TTS
基于深度神经网络(如 Tacotron、FastSpeech、VITS)的语音合成技术,相比传统拼接合成音质更自然流畅。
Vocoder
声码器,将声学特征(如梅尔频谱)转换为原始波形音频的模型,如 HiFi-GAN、WaveGlow、WaveNet。
SSML
Speech Synthesis Markup Language 语音合成标记语言,用于控制语速、音调、停顿、重音等合成参数。
Phoneme
音素,语言中的最小语音单位,TTS 系统通常先将文本转换为音素序列再合成语音。
Voice Cloning
语音克隆,通过少量样本学习目标说话人的音色特征,生成该声音的新语音。
Zero-shot TTS
零样本语音合成,无需对目标音色进行微调,直接利用模型泛化能力合成新声音。
Few-shot TTS
小样本语音合成,通过数秒到数分钟的参考音频即可克隆说话人音色。
Mel-Spectrogram
梅尔频谱图,将音频转换为人耳感知频率尺度的时频表示,是多数 TTS 模型的中间特征。
VITS
Variational Inference Text-to-Speech,一种端到端神经网络 TTS 模型,直接文本到波形,音质优秀。
Diffusion TTS
基于扩散模型的语音合成方法,通过逐步去噪生成高质量语音,如 NaturalSpeech 系列。
Streaming TTS
流式 TTS,在边合成边输出的模式下工作,适合实时对话和交互场景,降低首字延迟。
Speaker Embedding
说话人嵌入向量,用于表示不同说话人的音色特征,在多说话人 TTS 中用于控制音色。
MOS Score
Mean Opinion Score 平均意见分,主观音质评价指标,通常由多名听评员对合成语音的自然度打分(1-5)。
Voice Converter / VC
语音转换,保持语言内容不变但改变说话人的音色,与 TTS 互补的技术。
End-to-End TTS
端到端 TTS,直接从文本到音频输出,无需对齐、时长预测等中间步骤,如 VITS、FastSpeech 等。
Chinese TTS
中文 TTS 需解决多音字、韵律边界、声调等特殊问题,近年 ChatTTS、CosyVoice 等中文模型表现突出。
Singing Voice Synthesis / SVS
歌声合成,一种特殊的 TTS 应用,需同时控制音高、节拍和发音。