TTS 术语表

TTS 技术领域常用术语速查手册,持续更新。

TTS

Text-to-Speech 文本转语音,将文字内容转换为自然语音输出的技术。

Neural TTS

基于深度神经网络(如 Tacotron、FastSpeech、VITS)的语音合成技术,相比传统拼接合成音质更自然流畅。

Vocoder

声码器,将声学特征(如梅尔频谱)转换为原始波形音频的模型,如 HiFi-GAN、WaveGlow、WaveNet。

SSML

Speech Synthesis Markup Language 语音合成标记语言,用于控制语速、音调、停顿、重音等合成参数。

Phoneme

音素,语言中的最小语音单位,TTS 系统通常先将文本转换为音素序列再合成语音。

Voice Cloning

语音克隆,通过少量样本学习目标说话人的音色特征,生成该声音的新语音。

Zero-shot TTS

零样本语音合成,无需对目标音色进行微调,直接利用模型泛化能力合成新声音。

Few-shot TTS

小样本语音合成,通过数秒到数分钟的参考音频即可克隆说话人音色。

Mel-Spectrogram

梅尔频谱图,将音频转换为人耳感知频率尺度的时频表示,是多数 TTS 模型的中间特征。

VITS

Variational Inference Text-to-Speech,一种端到端神经网络 TTS 模型,直接文本到波形,音质优秀。

Diffusion TTS

基于扩散模型的语音合成方法,通过逐步去噪生成高质量语音,如 NaturalSpeech 系列。

Streaming TTS

流式 TTS,在边合成边输出的模式下工作,适合实时对话和交互场景,降低首字延迟。

Speaker Embedding

说话人嵌入向量,用于表示不同说话人的音色特征,在多说话人 TTS 中用于控制音色。

MOS Score

Mean Opinion Score 平均意见分,主观音质评价指标,通常由多名听评员对合成语音的自然度打分(1-5)。

Voice Converter / VC

语音转换,保持语言内容不变但改变说话人的音色,与 TTS 互补的技术。

End-to-End TTS

端到端 TTS,直接从文本到音频输出,无需对齐、时长预测等中间步骤,如 VITS、FastSpeech 等。

Chinese TTS

中文 TTS 需解决多音字、韵律边界、声调等特殊问题,近年 ChatTTS、CosyVoice 等中文模型表现突出。

Singing Voice Synthesis / SVS

歌声合成,一种特殊的 TTS 应用,需同时控制音高、节拍和发音。