Google Cloud Text-to-Speech 是 Google 基于其深厚的 AI 研究成果打造的语音合成服务。该服务底层采用了开创性的 WaveNet 模型和最新的 Transformer 架构,能够生成极其自然、接近真人的语音输出。目前,Google Cloud TTS 支持 220 多种语音,覆盖超过 40 种语言及其变体,在音色多样性和自然度方面表现出色。值得一提的是,Google 在语音合成的研究上投入多年,WaveNet 模型自发布以来一直是业界音质标杆之一。
在定价策略上,Google Cloud TTS 同样采用按字符计费的方式。标准级(非 WaveNet 语音)为每百万字符 4 美元,WaveNet 级高质量语音为每百万字符 16 美元。新用户每月可享受 100 万字符的免费额度,此外 Google Cloud 还会为新注册用户提供 300 美元的免费试用额度,可用于所有 Google Cloud 服务。需要注意的是,Google Cloud TTS 目前不支持 SSE(Server-Sent Events)方式的流式传输,在实时性要求较高的场景下可能需要额外的处理方案。
Google Cloud TTS 广泛适用于内容创作、有声书制作、IVR(交互式语音应答)系统和语言学习等场景。其 Custom Voice 功能类似于 Azure 的自定义语音,允许企业训练专属语音模型。与 Google 生态内的其他服务(如 Cloud Storage、Dialogflow 等)集成也非常方便,适合已经在使用 Google Cloud 基础设施的团队快速接入。