最新消息:关注人工智能 AI赋能新媒体运营

Google升级Gemini TTS:支持24种语言,对话更自然

科技资讯 admin 浏览

Gemini 2.5 Flash & Pro 语音升级:让AI说话,比你想象的更像真人

Google 正在重新定义人工智能语音生成的边界。近日,公司正式为 Gemini 2.5 Flash 和 Gemini 2.5 Pro 的文本转语音(TTS)系统推出重大升级,此次更新并非简单的参数优化,而是一次从“能说”到“会演”的质变。用户现已可在 Google AI Studio 中直接体验新版语音效果,而开发者也已可通过 API 接入,为应用注入更具感染力的声音表现力。

不只是“更自然”,而是“有情绪”

过去,AI语音常被诟病“像机器人念稿”。而这次升级后,Gemini 能精准识别并还原你指定的情绪与风格——无论是“轻松乐观的儿童故事讲解”“沉稳严肃的企业财报播报”,还是“带着疲惫感的深夜播客独白”,系统都能通过语调起伏、气息节奏、重音分布等细微变化真实再现。

举个例子:当你输入“用兴奋的语气,像发现宝藏一样说出这句话”,新版系统不仅会提高音调,还会在“宝藏”二字上加入轻微的颤音和呼吸停顿,模仿人类惊喜时的本能反应。这种细节,是过去版本难以企及的。

语速不再是“快慢开关”,而是“叙事节拍器”

一段好的有声内容,节奏比音质更重要。Gemini 2.5 现在能像专业配音员一样“听懂”文本的潜台词。

在悬疑剧情中,它会在关键句前自然放缓,制造紧张感;在幽默段落中,它会突然加快语速,配合“抖包袱”的节奏;当你明确标注“此处停顿1.2秒”,它不再只是机械地卡顿,而是根据上下文语义,给出符合人类对话习惯的呼吸式停顿。

Google 展示的一段对比视频中,同一段文字在旧版中平铺直叙,新版则像电影旁白般张弛有度——悬疑感瞬间拉满,观众反馈“差点以为是真人配音”。

多人对话,声音不“串戏”

对于制作播客、有声剧、电商多角色教学视频的创作者来说,角色声音混乱是最大痛点。旧版系统切换角色时,音色容易“漂移”,同一个角色在不同段落听起来像两个人。

新版 Gemini 引入了“声纹锚定”技术,首次实现跨段落、跨语言的角色声音一致性。你为“年轻女销售”设定的音色、语速、尾音习惯,无论她出现多少次、中间隔了多少段对话,系统都能稳定复现。同时,角色间的切换也更自然——不再有“咔哒”式硬切,而是像真实对话一样,声音自然过渡。

在一段模拟访谈的测试中,系统同时演绎主持人、嘉宾、现场观众的三重对话,声音辨识度高、情绪分明,连专业配音团队都表示“几乎挑不出破绽”。

24种语言,每种都有“母语感”

这次升级不仅限于英语。Gemini 2.5 现已支持 24 种主流语言的高质量语音生成,包括中文普通话、粤语、西班牙语、法语、日语、韩语、阿拉伯语等。

更重要的是,每种语言都保留了本地化表达习惯。比如中文普通话不再只是“标准腔”,而是能切换“北方口音的爽朗”或“南方语调的婉转”;日语能区分关西腔与东京腔;西班牙语能自然融入拉美地区的语速与重音模式。

对于跨境电商、多语言教育、全球内容出海团队来说,这意味着:一个角色,可以同时用五种语言“说”出同一种性格,而听众不会觉得“这是同一个人在翻译”。

谁最该用它?

如果你是:

  • 有声书制作人——告别千篇一律的“AI腔”,让角色有血有肉
  • 电商卖家——用带情绪的语音提升转化率,产品介绍不再像广告
  • 教育内容创作者——为不同年龄段学生定制语气,孩子听得进去
  • 播客与短视频博主——快速生成高质感配音,节省录音与剪辑时间
  • 游戏与AI角色开发者——让虚拟角色拥有稳定、有记忆点的声音人格

那么,这次升级就是你等待已久的工具。

现在就能体验

新版 Gemini 2.5 Flash(低延迟,适合实时交互)和 Gemini 2.5 Pro(高保真,适合精品内容)均已上线 Google AI Studio。你无需编程,直接输入文字,选择风格标签(如“温暖”“紧迫”“俏皮”),即可实时试听效果。

官方还同步更新了《提示词写作指南》,教你如何用“情绪关键词+节奏标记”写出能“指挥”AI声音的精准指令。例如:

“用35岁女性的语气,带着一点疲惫但温柔的笑意,慢慢说:‘你知道吗?其实我每天晚上都偷偷听你讲的故事入睡。’”

点击 [Google AI Studio](https://aistudio.google.com/),上传你的第一段AI语音剧本——你可能不会相信,这段声音,是机器生成的。