
在激烈的AI竞赛中,Google昨(11)日发表专为代理型AI(Agentic AI)时代打造的多模态语言模型Gemini 2.0,并开放Gemini 2.0 Flash实验版,及公布3种AI代理(Agent)。
Google执行长Sundar Pichai指出,在去年底及今年8月推出Gemini 1.0和1.5迄今,公司以Gemini模型发展出7种产品,包括受许多人喜爱的多模态AI笔记应用程序NotebookLM,用户超过20亿。他说,今年以来Google投入研发代理人模型(Agentic Model),最新的Gemini 2.0是为代理型AI时代所打造的次世代模型,也是Google历来最强大的模型。
如同前几代,Gemini 2.0也是一个家族。作为代理型AI时代打造的模型,Gemini 2.0具备多模态输出,原生生成图片及输出音讯的功能,并整合于Google Search及Maps。
Google今天公布了Gemini 2.0家族第一款模型,名为Gemini 2.0 Flash。它是以最受开发人员欢迎的1.5 Flash为基础开发,在理解、数学、推理、事实贴近、图像辨识、语音辨识及影像分析等多个标竿测试,大幅超越前一代Flash模型,甚至1.5 Pro模型。
Gemini 2.0 Flash目前还是实验版,现已供开发人员透过Google AI Studio及Vertex AI在API中打造自己的AI应用程序。所有开发人员都能测试多模态输入及文字输出,而早鸟伙伴则还能试用语音生成及原生图片生成功能。伴随Gemini 2.0 Flash的公布,Google也释出新的Multimodal Live API,后者具备即时音讯、影像串流输入等工具。
Google预计2025年1月,会再推出更多参数量版本的Gemini 2.0模型。
现在Gemini 2.0 Flash实验版将部署到Gemini AI助理中开放全球用户使用。今天起可以从桌机和手机Web版Gemini的下拉选单,选择Gemini 2.0 Flash使用,这模型很快也可以部署到Gemini App。
Google今天也公布了以Gemini 2.0为基础的三个AI代理研究原型。一是以Gemini 2.0升级的Project Astra,它具有在混合及多种语言环境下转换语言,且能理解不同腔调和罕见字。有了Gemini 2.0,可用于Google Search、Lens和Maps。
2个Gemini 2.0为基础的AI代理,分别为Project Mariner和Jules。Project Mariner是可在浏览器执行的AI代理,以Gemini 2.0为基础使其能理解像素、或是Web元素如文字、程序码、图片及表格,还能透过一款Chrome外挂来执行任务,像是读取网页、生成摘要。Jules则是可整合到GitHub工作流程的AI代理,能处理问题、建立规划或执行,旨在加速开发,但全可由开发人员控制和监控。