谷歌将原生计算机使用工具集成至Gemini 3.5 Flash
谷歌今日正式将原生“计算机使用”工具并入Gemini 3.5 Flash模型,全面替换原有的Gemini 2.5测试框架。人工智能不再局限于文字对话,开始向具备实际执行能力的数字同事转变。AI代理的落地进程因此加快。
开发者现在可以通过Gemini API调用该模型的原生能力。智能代理无需编写复杂的底层代码。它们能像人一样看懂屏幕截图,理解界面信息,随后在应用程序里自主导航并执行复杂的桌面任务。
这套能力在办公自动化、软件测试和跨平台数据处理方面具备实际应用价值。代理可以自动浏览网站、填写长表单、点击界面按钮,也能在桌面端、移动端和浏览器里高效完成重复性数据收集。为加速生态建设,谷歌已在Browserbase平台开设实时演示空间,供开发者直接测试企业代理平台功能。
将鼠标和键盘控制权交给AI会伴随安全风险,间接指令注入是主要挑战之一。谷歌表示已通过对抗训练强化模型防御。配套的企业级安全机制同步上线。系统允许企业设置规则,要求AI在执行敏感操作或永久性更改前必须获得人工明确批准。另一套机制能在检测到潜在攻击时立即冻结运行中的任务,多维度保障桌面安全。
模型升级的同日,Chrome 149稳定版正式发布。浏览器附件菜单新增“从屏幕中选择”功能。用户启用后,可直接拖拽框选当前标签页里的图片或文本,瞬间将其添加为Gemini的提示语。基于网页内容进行交互提问的便捷性得到提升。
原生计算机使用工具直接嵌入Gemini 3.5 Flash,加深了AI模型与操作系统的结合。行业重心正从追求大模型参数规模,转向关注实际的工具调用与任务执行能力。这一趋势将加速AI代理在企业级自动化和消费者服务中的普及。人机交互与软件应用形态可能因此改变,更高级别的自主AI代理有望成为现实。