谷歌推出支持70种语言的最强TTS模型

谷歌推出Gemini-TTS：让AI说话，终于像人了

谷歌最近悄悄发布了一个听起来不起眼、实则改变游戏规则的工具：Gemini-TTS。这不是又一个“能读文字”的语音合成器，而是一个能“懂情绪、会呼吸”的声音引擎。官方说它是“至今最富表现力的文本转语音解决方案”——这话听着像营销，但试过的人，都沉默了。

过去我们用的TTS，声音像机器人念新闻：平、直、没停顿，连句号都像赶着下班。Gemini-TTS不一样。你不再需要靠调整语速、音高这些粗糙参数，而是直接用一句话告诉它：“用低沉、缓慢的语气，像纪录片旁白那样，带着一点疲惫感。”它真的能听懂。你想让AI在客服电话里说“抱歉让您久等了”，带点歉意的停顿和轻叹，它能做出来；想让讲故事的声音突然加快、压低，制造悬疑感，它也能跟上。这不是“模仿人类”，是“理解语境”。

70种语言，自动识别，不用再为多语种头疼

如果你做过跨国产品，一定被多语言语音折磨过——中文要配一个版本，英文再配一个，日语还得找第三方，成本高、节奏对不上，还容易出错。Gemini-TTS直接甩掉这些麻烦：支持70种语言，包括普通话、英语、西班牙语、日语、法语、阿拉伯语、印地语等主流语种。更狠的是，它能自动识别你输入的是哪种语言，不用你标注，也不用切换模型。你写一段混合中英文的脚本，它能无缝切换发音，连口音都贴合语境。这对做有声书、国际播客、跨境电商语音客服的团队来说，省下的不仅是钱，是时间与精力。

不只是“说”，还能“听”和“对”

谷歌没把Gemini-TTS当孤立工具，而是把它塞进了Gemini 3.1全家桶里。这意味着什么？当你在开发一个AI语音助手，它不仅能说，还能和音频模型配合，实时响应。比如：用户问“导航到最近的加油站”，AI不仅说出路线，还能在提到“左转”时自然地顿一下，像真人司机在确认路况；在视频会议中，它能根据背景噪音和语速，自动调整输出音量和节奏，不抢话、不卡顿。

有开发者实测，在电话客服场景中，使用Gemini-TTS的AI客服，用户平均停留时间比传统TTS高出37%——不是因为答得更好，是因为“听起来像人”。

谁最该用它？

如果你是：

做有声书或播客的创作者——不用再雇配音员，成本降一半，更新速度翻倍。
开发智能硬件或车载系统——让导航、语音助手不再像冷冰冰的机器。
做教育App或语言学习工具——孩子听AI讲故事，能听出情绪起伏，学习效果更好。
运营跨境电商——用一套系统生成多国语言的客服语音、广告音频，全球同步上线。

你不需要懂技术，只要会写文字，就能让AI“开口说话”。

这不是终点，是起点

谷歌这次没搞花哨的发布会，也没喊“革命”二字。但它悄悄把语音从“工具”变成了“表达”。当AI能准确传达一个叹息、一句犹豫、一次轻笑，我们就不再只是和机器对话，而是在和一个有温度的“声音”互动。

未来，你的智能音箱、AI老师、虚拟客服，可能都会用上这个声音。而你，或许会不自觉地说一句：“这声音……怎么这么像真人？”

CB科技站