Gemini 3.5实时语音翻译模型发布改善翻译腔

谷歌推出 Gemini3.5Live Translate 实时语音翻译模型

谷歌上线了音频模型 Gemini3.5Live Translate。该模型采用实时语音到语音翻译技术，已直接接入 Google AI Studio、Google 翻译与 Google Meet。系统直接处理跨语言对话，减少传统翻译中的等待环节。

传统工具通常采用轮流翻译模式，用户说完才能出结果。新模型支持边听边译。它在生成译文的同时记录说话人的语调、节奏和音高，并在输出时还原这些声音特征。系统在收集上下文以确保准确率与保持实时同步之间做了平衡，目前延时控制在几秒内，对话过程中的停顿被明显压缩。

该功能默认支持超过 70 种语言的自动识别与互译，无需手动配置语言选项。系统在复杂声学环境下能保持稳定运行。谷歌开放了 Gemini Live API，方便开发者将同传能力接入多语种电话、在线教育或直播场景。出行平台 Grab 已投入试用。在处理每月千万量级的司乘实时沟通时，该模型的翻译质量与低延迟特性得到了验证。

会议与移动端的体验同步调整。Google Meet 的翻译语言组合将扩展至 2000 多种，不再依赖英语作为唯一中转语种。手机端 Google 翻译应用在耳机翻译模式之外，新增了听筒聆听模式。用户在公共场合不方便佩戴耳机时，可以直接用手机听筒听取译文。

合规方面，模型生成的音频自动带有 SynthID 数字水印。水印不可直接感知，主要用于标识 AI 生成内容，防止信息被误导或滥用。随着该模型逐步接入各项服务，实时跨语言沟通的功能将覆盖更多日常使用场景。

跨语言沟通谷歌 gemini-3.5-live-translate 语音到语音

CB科技站

Gemini 3.5实时语音翻译模型发布改善翻译腔

谷歌推出 Gemini3.5Live Translate 实时语音翻译模型

与本文相关的文章