谷歌推出 Gemini3.5Live Translate 实时语音翻译模型
谷歌上线了音频模型 Gemini3.5Live Translate。该模型采用实时语音到语音翻译技术,已直接接入 Google AI Studio、Google 翻译与 Google Meet。系统直接处理跨语言对话,减少传统翻译中的等待环节。
传统工具通常采用轮流翻译模式,用户说完才能出结果。新模型支持边听边译。它在生成译文的同时记录说话人的语调、节奏和音高,并在输出时还原这些声音特征。系统在收集上下文以确保准确率与保持实时同步之间做了平衡,目前延时控制在几秒内,对话过程中的停顿被明显压缩。
该功能默认支持超过 70 种语言的自动识别与互译,无需手动配置语言选项。系统在复杂声学环境下能保持稳定运行。谷歌开放了 Gemini Live API,方便开发者将同传能力接入多语种电话、在线教育或直播场景。出行平台 Grab 已投入试用。在处理每月千万量级的司乘实时沟通时,该模型的翻译质量与低延迟特性得到了验证。
会议与移动端的体验同步调整。Google Meet 的翻译语言组合将扩展至 2000 多种,不再依赖英语作为唯一中转语种。手机端 Google 翻译应用在耳机翻译模式之外,新增了听筒聆听模式。用户在公共场合不方便佩戴耳机时,可以直接用手机听筒听取译文。
合规方面,模型生成的音频自动带有 SynthID 数字水印。水印不可直接感知,主要用于标识 AI 生成内容,防止信息被误导或滥用。随着该模型逐步接入各项服务,实时跨语言沟通的功能将覆盖更多日常使用场景。