谷歌周三(3月26日)推出最新语音模型Gemini 3.1 Flash Live,并已将其集成到语音版聊天机器人Gemini Live和语音搜索Search Live中,同时宣布将Search Live功能扩展至全球200多个国家和地区。
Gemini 3.1 Flash Live主要提升了语音交互的实时性与稳定性。谷歌表示,新模型在响应速度和语音流畅度方面均有显著优化,使对话更贴近自然语感。在性能评测中,该模型在衡量多步骤任务处理能力的ComplexFuncBench Audio测试中得分达到90.8%,表明其在语音指令下执行复杂操作的能力较前一代有所提升。
在实际语音场景中,模型表现也更加出色。在Scale AI的Audio MultiChallenge测试中,Gemini 3.1 Flash Live得分达36.1%,表明其在面对语音打断、停顿等复杂情况时,仍能保持对指令的理解与推理能力。此外,新模型能够识别语速、语调等细节,并在嘈杂环境中维持稳定的语音交互,整体使用体验更流畅可靠。
谷歌已将该模型部署至Gemini Live,用户可通过语音与AI进行连续对话,适用于日常查询、问题解答或创意构思等场景。与以往语音助手仅支持单次问答不同,Gemini Live能够在同一对话中持续延伸问题,保持上下文连贯。
谷歌还扩大了Search Live的部署范围,将语音搜索功能推向全球200多个国家和地区。Search Live最早于2025年在美国市场推出,当时仅支持英文且为实验性功能,此次已全面支持多语言并开放全球使用,标志着该功能正式进入大规模应用阶段。

通过Search Live,用户可直接以语音与搜索系统进行实时对话,并在同一语境中持续提问或补充条件,系统将结合搜索结果提供响应,彻底改变传统以关键词为基础的查询模式。
Gemini 3.1 Flash Live还集成了SynthID数字水印技术,直接嵌入模型生成的音频中,便于识别AI生成内容,降低误用和虚假信息传播的风险。