最新消息:关注人工智能 AI赋能新媒体运营

谷歌推出支持70种语言的最强TTS模型

科技资讯 admin 浏览

谷歌推出Gemini-TTS:让AI说话,终于像人了

谷歌最近悄悄发布了一个听起来不起眼、实则改变游戏规则的工具:Gemini-TTS。这不是又一个“能读文字”的语音合成器,而是一个能“懂情绪、会呼吸”的声音引擎。官方说它是“至今最富表现力的文本转语音解决方案”——这话听着像营销,但试过的人,都沉默了。

过去我们用的TTS,声音像机器人念新闻:平、直、没停顿,连句号都像赶着下班。Gemini-TTS不一样。你不再需要靠调整语速、音高这些粗糙参数,而是直接用一句话告诉它:“用低沉、缓慢的语气,像纪录片旁白那样,带着一点疲惫感。”它真的能听懂。你想让AI在客服电话里说“抱歉让您久等了”,带点歉意的停顿和轻叹,它能做出来;想让讲故事的声音突然加快、压低,制造悬疑感,它也能跟上。这不是“模仿人类”,是“理解语境”。

image.png

70种语言,自动识别,不用再为多语种头疼

如果你做过跨国产品,一定被多语言语音折磨过——中文要配一个版本,英文再配一个,日语还得找第三方,成本高、节奏对不上,还容易出错。Gemini-TTS直接甩掉这些麻烦:支持70种语言,包括普通话、英语、西班牙语、日语、法语、阿拉伯语、印地语等主流语种。更狠的是,它能自动识别你输入的是哪种语言,不用你标注,也不用切换模型。你写一段混合中英文的脚本,它能无缝切换发音,连口音都贴合语境。这对做有声书、国际播客、跨境电商语音客服的团队来说,省下的不仅是钱,是时间与精力。

不只是“说”,还能“听”和“对”

谷歌没把Gemini-TTS当孤立工具,而是把它塞进了Gemini 3.1全家桶里。这意味着什么?当你在开发一个AI语音助手,它不仅能说,还能和音频模型配合,实时响应。比如:用户问“导航到最近的加油站”,AI不仅说出路线,还能在提到“左转”时自然地顿一下,像真人司机在确认路况;在视频会议中,它能根据背景噪音和语速,自动调整输出音量和节奏,不抢话、不卡顿。

有开发者实测,在电话客服场景中,使用Gemini-TTS的AI客服,用户平均停留时间比传统TTS高出37%——不是因为答得更好,是因为“听起来像人”。

谁最该用它?

如果你是:

  • 做有声书或播客的创作者——不用再雇配音员,成本降一半,更新速度翻倍。
  • 开发智能硬件或车载系统——让导航、语音助手不再像冷冰冰的机器。
  • 做教育App或语言学习工具——孩子听AI讲故事,能听出情绪起伏,学习效果更好。
  • 运营跨境电商——用一套系统生成多国语言的客服语音、广告音频,全球同步上线。

你不需要懂技术,只要会写文字,就能让AI“开口说话”。

这不是终点,是起点

谷歌这次没搞花哨的发布会,也没喊“革命”二字。但它悄悄把语音从“工具”变成了“表达”。当AI能准确传达一个叹息、一句犹豫、一次轻笑,我们就不再只是和机器对话,而是在和一个有温度的“声音”互动。

未来,你的智能音箱、AI老师、虚拟客服,可能都会用上这个声音。而你,或许会不自觉地说一句:“这声音……怎么这么像真人?”