谷歌推出Gemini 2.5计算机使用功能，让AI代理能够操作网页界面

Google发布Gemini 2.5 Computer Use预览版，通过Gemini API在Google AI Studio与Vertex AI向开发者开放。这是一款建立在Gemini 2.5 Pro视觉理解与推理能力基础上的专用模型，目标是让代理能够直接操作用户界面，可执行点击、输入到拖拽操作。

Gemini 2.5 Computer Use模型以循环方式运行，每个回合的输入包括用户请求、当前环境的截图与近期动作历史，并可明确排除部分操作或加入自定义函数。模型分析后输出一个具体的界面操作函数调用，例如点击或输入文字，而涉及购买行为等重要操作则会请求用户确认。客户端收到指令后在浏览器中执行，再回传最新截图与当前URL，重新进入下一回合，直到任务完成、发生错误或因安全响应与用户决定而终止。

适用范围以浏览器控制为主，演示中可原生填写与提交表单、操作下拉菜单与筛选条件，并能在登录后的环境中执行必要操作。官方同时指出，该模型在移动设备界面控制上展现潜力，桌面操作系统层级的控制则尚待优化。对于多数内部系统或第三方服务而言，这种以画面为目标的自动化，可弥补缺乏结构化API时的实施空白。

Google采用Browserbase的Online-Mind2Web测试框架展示成效，模型在该测量下同时达到较高准确率与较低延迟，并在Online-Mind2Web、WebVoyager与AndroidWorld等基准测试中表现突出。

Google已将风险应对直接训练进模型，以应对恶意使用、意外行为以及网页端诈骗或提示注入等场景。此外，Google提供开发者管控机制，防止模型自动执行高风险或有害操作，此机制包含独立的审核步骤，在推理阶段逐步审查模型拟议动作的合规性。开发者也可事先通过系统指令，规定必须拒绝或征求用户确认高风险行为，同时官方文档也建议避免尝试绕过CAPTCHA或控制医疗设备，此类行为性质上应被阻止。

Google内部团队已将此模型应用于UI测试，作为脆弱端到端测试的备用方案，用于恢复失败流程。此外，Project Mariner、Firebase测试代理以及搜索的人工智能模式在部分能力上，也采用了类似技术。

CB科技站

谷歌推出Gemini 2.5计算机使用功能，让AI代理能够操作网页界面

与本文相关的文章