eSpeak | TTS Center

eSpeak 是一款完全开源免费的命令行 TTS 语音合成 引擎，诞生于 1995 年，由 Jonathan Duddington 开发并持续维护至今。与当前主流的深度学习驱动 AI 语音平台不同，eSpeak 采用基于共振峰（Formant）合成的传统语音生成技术，虽然音质在自然度上不及现代神经网络方案，但换来了极小的资源占用和极高的运行效率——整个引擎仅需几兆内存即可运行，可在 Linux、Windows、macOS、Android 甚至 Arduino 等嵌入式平台上流畅工作。作为 GNU GPL 协议下的自由软件，任何人都可以免费使用、修改和分发。

eSpeak 最为人称道的优势在于其超广的语言覆盖面——它支持超过 100 种语言和方言，包括中文（普通话）、英语（多种口音）、日语、韩语、法语、德语、西班牙语、意大利语、俄语、阿拉伯语、荷兰语、波兰语、土耳其语、越南语、印地语等。得益于社区多年来的持续贡献，许多小众语言和少数民族语言也能在 eSpeak 中找到对应的语音规则文件，这在商业 TTS 生态中几乎是不可想象的。eSpeak 还提供多种声音变体（如男声、女声、机器人声、耳语声等），并部分支持 SSML 标记语言用于精确控制发音。

在应用场景方面，eSpeak 广泛用于嵌入式系统和辅助技术。它是 Android 早期版本默认的 TTS 引擎，也是 Linux 各发行版下 Speech Dispatcher 的底层引擎之一，大量屏幕阅读器（如 NVDA、Orca）依赖 eSpeak 实现文本朗读功能。此外，由于其命令行接口极其简单（espeak "text" 即可朗读），eSpeak 也常被服务器端脚本、机器人系统和物联网设备集成使用。虽然它生成的声音带有明显的合成痕迹和机械感（这是共振峰合成的天然局限），但在对资源、普适性和成本有严格要求的场景下，eSpeak 依然是最可靠的 文本转语音 开源选择。