最新消息:关注人工智能 AI赋能新媒体运营

谷歌推出Gemini 2.5计算机使用功能,让AI代理能够操作网页界面

科技智能 admin 浏览

Google发布Gemini 2.5 Computer Use预览版,通过Gemini API在Google AI Studio与Vertex AI向开发者开放。这是一款建立在Gemini 2.5 Pro视觉理解与推理能力基础上的专用模型,目标是让代理能够直接操作用户界面,可执行点击、输入到拖拽操作。

Gemini 2.5 Computer Use模型以循环方式运行,每个回合的输入包括用户请求、当前环境的截图与近期动作历史,并可明确排除部分操作或加入自定义函数。模型分析后输出一个具体的界面操作函数调用,例如点击或输入文字,而涉及购买行为等重要操作则会请求用户确认。客户端收到指令后在浏览器中执行,再回传最新截图与当前URL,重新进入下一回合,直到任务完成、发生错误或因安全响应与用户决定而终止。

适用范围以浏览器控制为主,演示中可原生填写与提交表单、操作下拉菜单与筛选条件,并能在登录后的环境中执行必要操作。官方同时指出,该模型在移动设备界面控制上展现潜力,桌面操作系统层级的控制则尚待优化。对于多数内部系统或第三方服务而言,这种以画面为目标的自动化,可弥补缺乏结构化API时的实施空白。

Google采用Browserbase的Online-Mind2Web测试框架展示成效,模型在该测量下同时达到较高准确率与较低延迟,并在Online-Mind2Web、WebVoyager与AndroidWorld等基准测试中表现突出。

Google已将风险应对直接训练进模型,以应对恶意使用、意外行为以及网页端诈骗或提示注入等场景。此外,Google提供开发者管控机制,防止模型自动执行高风险或有害操作,此机制包含独立的审核步骤,在推理阶段逐步审查模型拟议动作的合规性。开发者也可事先通过系统指令,规定必须拒绝或征求用户确认高风险行为,同时官方文档也建议避免尝试绕过CAPTCHA或控制医疗设备,此类行为性质上应被阻止。

Google内部团队已将此模型应用于UI测试,作为脆弱端到端测试的备用方案,用于恢复失败流程。此外,Project Mariner、Firebase测试代理以及搜索的人工智能模式在部分能力上,也采用了类似技术。