最新消息:关注人工智能 AI赋能新媒体运营

谷歌翻译引入Gemini原生语音能力,开始测试实时语音翻译功能

科技资讯 admin 浏览

Google上周五(12月12日)宣布,将Gemini的最新翻译能力及原生语音能力引入Google翻译(Google Translate),不仅全面提升了文本翻译质量,还在Android版Google翻译中测试了可兼容所有耳机的实时语音翻译功能。该功能采用的是Google近期更新的Gemini 2.5 Flash Native Audio模型。

在文本翻译方面,Google翻译开始采用由Gemini驱动的全新翻译引擎,显著增强了对成语、俚语和语境的理解能力,有效避免了过去逐字直译的问题。此次升级已率先在美国和印度上线,支持英语与近20种语言互译,覆盖Android、iOS和网页端。

真正的突破体现在语音层面。Google表示,正在测试的实时语音翻译功能,依托Gemini 2.5 Flash Native Audio的原生语音处理能力,可直接在音频层面进行理解与生成,无需经过传统“语音转文字、再转回语音”的中间流程。这大幅降低了翻译延迟,同时保留了说话者的语气、重音和语调,使翻译结果更贴近真实的人类对话。

语音对语音翻译采用“以听为主”的实时模式。用户只需在Android版Google翻译中佩戴耳机并开启“实时翻译”功能,手机便会持续采集周围环境中的外语语音,即时翻译后通过耳机播放为用户设定的目标语言。

目前该耳机实时语音翻译仍处于测试阶段,支持连续收音与即时播放翻译内容,适用于跨语言对话、演讲聆听和外语内容理解。与苹果的实时翻译功能仅支持自家AirPods不同,Google的语音对语音翻译支持所有品牌的耳机,并覆盖超过70种语言。

测试版已在美国、墨西哥和印度的Android设备上线,预计2026年将扩展至iOS平台及更多地区。