
2025世界通讯大会(World Mobile Congress,MWC)本周开幕,Google也宣布为Gemini Live增加AI代理人,包括能回答複杂问题、翻译菜单或线上提供用户穿搭建议。
Gemini Live是类似OpenAI ChatGPT的进阶语音模式(Advanced Voice Mode),是可以和用户流畅对谈的聊天机器人。Google在MWC 2025上展示Gemini最新功能,包括可以多种语言解决複杂主题的问题、使用Circle to Search翻译文字,例如菜单。此外Gemini Live还加入即时影像与Live共享萤幕(Share screen with Live)新功能。
这些功能将在本月部署到Android装置版Gemini Advanced订阅户。Gemini Advanced为订阅Google One AI Premium方案获得的部份功能。
根据Google提供示範「与Live共享萤幕」的影片,从Gemini App按下Live键即可召唤出Gemini Live。当用户询问Gemini Live穿搭建议,系统会要求用户按下相机App,好比和Gemini Live共享萤幕画面。这时Gemini Live会和用户就看到的衣裤来回对答,提供建议。
Gemini Live新功能的底层引擎来自Gemini 2.0为基础的最新AI代理人Project Astra,它能在混合及多种语言环境下转换语言,且能理解不同腔调和罕见字,可用于Google Search、Lens和Maps。Google并在12月推出推理AI模型Gemini 2.0 Flash Thinking实验版,可以解决複杂的问题。
Google去年同时还公布另一AI代理人原型,名为Project Mariner。它是可在浏览器执行的AI代理,以Gemini 2.0为基础使其能理解像素、或是Web元素如文字、程序码、图片及表格,还能透过一款Chrome外挂来执行任务,像是读取网页、生成摘要等。