Amazon Polly

AWS 的云 TTS 服务,支持神经网络和标准 TTS,独特的 SSML 标签和发音词典功能。

定价模式
按字符计费,标准级 $4/百万字符,神经网络级 $16/百万字符
免费额度
每月 500 万字符免费额度(第一年)
语言支持
10 种
音色数
60
流式支持
延迟
低延迟 (200-600ms)

Amazon Polly 是 AWS 推出的云文本转语音服务,作为最早进入市场的云 TTS 产品之一,Polly 拥有成熟稳定的技术积累。该服务同时支持标准 TTS 和神经网络 TTS 两种合成方式,覆盖 30 多种语言,提供 60 余种语音供选择。Polly 的一个特色功能是其强大的发音词典(Lexicon)和 SSML 标签支持,开发者可以自定义特定词汇的发音规则,对于需要精确控制专有名词、品牌名或行业术语发音的场景非常实用。

在定价方面,Amazon Polly 与其他主流云服务商保持一致,标准级和神经网络级分别为每百万字符 4 美元和 16 美元。但对新用户来说,Polly 的免费额度相当慷慨——第一年内每月可享受 500 万字符的免费额度,远超 Azure 和 Google 的同类优惠,非常适合作品初期开发和原型验证。Polly 还支持流式传输和 SSE,能够在语音生成的同时开始播放,有效降低用户感知延迟。

Amazon Polly 的典型应用场景包括:驱动 Alexa 等智能语音助手的内容朗读、为在线教育平台提供多语种课件配音、在新闻和媒体应用中实现文章语音化、以及为 IoT 设备和智能硬件提供语音交互能力。作为 AWS 生态的一部分,Polly 可以与 Lambda、S3、CloudFront 等服务无缝集成,方便构建完整的语音处理流水线。不过需要注意的是,Polly 的语音数量相比 Azure 和 Google 较少,尤其是在亚洲语种方面的覆盖相对有限。