桌面端

eSpeak

轻量级开源命令行 TTS 引擎,支持 100+ 语言,极小资源占用,适合嵌入式场景。

访问官网定价:免费开源支持离线

eSpeak 是一款完全开源免费的命令行 TTS 语音合成 引擎,诞生于 1995 年,由 Jonathan Duddington 开发并持续维护至今。与当前主流的深度学习驱动 AI 语音平台不同,eSpeak 采用基于共振峰(Formant)合成的传统语音生成技术,虽然音质在自然度上不及现代神经网络方案,但换来了极小的资源占用和极高的运行效率——整个引擎仅需几兆内存即可运行,可在 Linux、Windows、macOS、Android 甚至 Arduino 等嵌入式平台上流畅工作。作为 GNU GPL 协议下的自由软件,任何人都可以免费使用、修改和分发。

eSpeak 最为人称道的优势在于其超广的语言覆盖面——它支持超过 100 种语言和方言,包括中文(普通话)、英语(多种口音)、日语、韩语、法语、德语、西班牙语、意大利语、俄语、阿拉伯语、荷兰语、波兰语、土耳其语、越南语、印地语等。得益于社区多年来的持续贡献,许多小众语言和少数民族语言也能在 eSpeak 中找到对应的语音规则文件,这在商业 TTS 生态中几乎是不可想象的。eSpeak 还提供多种声音变体(如男声、女声、机器人声、耳语声等),并部分支持 SSML 标记语言用于精确控制发音。

在应用场景方面,eSpeak 广泛用于嵌入式系统和辅助技术。它是 Android 早期版本默认的 TTS 引擎,也是 Linux 各发行版下 Speech Dispatcher 的底层引擎之一,大量屏幕阅读器(如 NVDA、Orca)依赖 eSpeak 实现文本朗读功能。此外,由于其命令行接口极其简单(espeak "text" 即可朗读),eSpeak 也常被服务器端脚本、机器人系统和物联网设备集成使用。虽然它生成的声音带有明显的合成痕迹和机械感(这是共振峰合成的天然局限),但在对资源、普适性和成本有严格要求的场景下,eSpeak 依然是最可靠的 文本转语音 开源选择。