TTS 术语表

TTS 技术领域常用术语速查手册，持续更新。

Text-to-Speech 文本转语音，将文字内容转换为自然语音输出的技术。

基于深度神经网络（如 Tacotron、FastSpeech、VITS）的语音合成技术，相比传统拼接合成音质更自然流畅。

声码器，将声学特征（如梅尔频谱）转换为原始波形音频的模型，如 HiFi-GAN、WaveGlow、WaveNet。

Speech Synthesis Markup Language 语音合成标记语言，用于控制语速、音调、停顿、重音等合成参数。

音素，语言中的最小语音单位，TTS 系统通常先将文本转换为音素序列再合成语音。

语音克隆，通过少量样本学习目标说话人的音色特征，生成该声音的新语音。

零样本语音合成，无需对目标音色进行微调，直接利用模型泛化能力合成新声音。

小样本语音合成，通过数秒到数分钟的参考音频即可克隆说话人音色。

梅尔频谱图，将音频转换为人耳感知频率尺度的时频表示，是多数 TTS 模型的中间特征。

Variational Inference Text-to-Speech，一种端到端神经网络 TTS 模型，直接文本到波形，音质优秀。

基于扩散模型的语音合成方法，通过逐步去噪生成高质量语音，如 NaturalSpeech 系列。

流式 TTS，在边合成边输出的模式下工作，适合实时对话和交互场景，降低首字延迟。

说话人嵌入向量，用于表示不同说话人的音色特征，在多说话人 TTS 中用于控制音色。

Mean Opinion Score 平均意见分，主观音质评价指标，通常由多名听评员对合成语音的自然度打分（1-5）。

语音转换，保持语言内容不变但改变说话人的音色，与 TTS 互补的技术。

端到端 TTS，直接从文本到音频输出，无需对齐、时长预测等中间步骤，如 VITS、FastSpeech 等。

中文 TTS 需解决多音字、韵律边界、声调等特殊问题，近年 ChatTTS、CosyVoice 等中文模型表现突出。

歌声合成，一种特殊的 TTS 应用，需同时控制音高、节拍和发音。