
Google今日在Pixel 9手机系列产品发表大会上,同时宣布多项相关的AI功能,包括能流畅对话的Gemini Live,挑战OpenAI ChatGPT进阶语音模式(Advanced Voice Mode),以及将Gemini进一步整合到Android,以及YouTube等Google程序中。
Gemini Live是提供行动对话体验的聊天助理,让手机用户可和Gemini流畅对话。用户除了可以口说和Gemini来回对话外,甚至能在Gemini Live回应过程中打断、或中途喊停一会再接续。Gemini Live也能于Gemini App背景执行或手机锁定时和用户对话,一如用户讲电话一般。为了让Gemini对话更丰富,Google也加入10种声音选项。
Gemini Live显然是想挑战日前才正式上线的ChatGPT进阶语音模式(Advanced Voice Mode)。OpenAI 5月公布ChatGPT进阶语音模式虽然表现令人惊豔,却被爆其中一个声音未经授权模仿了美国女星Scarlett Johansson,虽然OpenAI否认此事,却也移除该声音,并延后进阶语音模式上线到8月初,该模式才正式提供5种声音,但仅向一小部分用户开放使用,而且设定种种限制,像是ChatGPT无法模仿他人声音,也不允许其他声音输入。
Gemini Live即日已部署给订阅Gemini Advanced方案的Android手机用户,目前只支援英文,Google表示,几个星期内会扩及iOS,并支援更多种语言。
除了Gemini Live外,Google也宣布未来几个星期内多款程序如Keep、YouTube Music、Task和Utilities或是行事曆(Calendar)都会整合Gemini外挂,用户不必切换应用即可让Gemini执行任务,像是让它从Gmail找出友人寄来的食谱,并将其中一项食材加入Keep採购清单,或是让Gemini从Google相簿抓出音乐会传单,查询当天是否有空、并设定购票提醒。
Google也让Android进一步整合Gemini。只要长按电源键,或说声「Hey Google」,就能召唤出Gemini助理。用户可点选「Ask about this screen」询问问题,或在使用YouTube时点选「Ask about this video」,例如列出旅游影片的餐厅清单,再叫出Gemini在Google Maps上标注。Gemini也不只能读取萤幕内容,还能和既有应用互动,像是将Gemini生成的图片直接丢进Gmail和Google Messages。
有别于Pixel 9系列上的AI功能以Gemini Nano为基础,今日Gemini Live等新功能则是採用Google新模型如Gemini 1.5 Flash为底层技术,以提供较好的效能和回应品质。但Google不忘表示,新上线的功能仍可能会有回应时间需时较久,或是回应不準确或出现令人意外答案等问题。
Google表示,未来几个月内该公司会致力于提升Gemini效能和品质,并预告,Gemini还会整合到Google Home、电话(Phone)和讯息等其他应用中。图片来源/Google