谷歌发布Gemini3.5Flash，原生集成计算机使用工具替代2.5框架

谷歌将原生计算机使用工具集成至Gemini 3.5 Flash

谷歌今日正式将原生“计算机使用”工具并入Gemini 3.5 Flash模型，全面替换原有的Gemini 2.5测试框架。人工智能不再局限于文字对话，开始向具备实际执行能力的数字同事转变。AI代理的落地进程因此加快。

开发者现在可以通过Gemini API调用该模型的原生能力。智能代理无需编写复杂的底层代码。它们能像人一样看懂屏幕截图，理解界面信息，随后在应用程序里自主导航并执行复杂的桌面任务。

这套能力在办公自动化、软件测试和跨平台数据处理方面具备实际应用价值。代理可以自动浏览网站、填写长表单、点击界面按钮，也能在桌面端、移动端和浏览器里高效完成重复性数据收集。为加速生态建设，谷歌已在Browserbase平台开设实时演示空间，供开发者直接测试企业代理平台功能。

将鼠标和键盘控制权交给AI会伴随安全风险，间接指令注入是主要挑战之一。谷歌表示已通过对抗训练强化模型防御。配套的企业级安全机制同步上线。系统允许企业设置规则，要求AI在执行敏感操作或永久性更改前必须获得人工明确批准。另一套机制能在检测到潜在攻击时立即冻结运行中的任务，多维度保障桌面安全。

模型升级的同日，Chrome 149稳定版正式发布。浏览器附件菜单新增“从屏幕中选择”功能。用户启用后，可直接拖拽框选当前标签页里的图片或文本，瞬间将其添加为Gemini的提示语。基于网页内容进行交互提问的便捷性得到提升。

原生计算机使用工具直接嵌入Gemini 3.5 Flash，加深了AI模型与操作系统的结合。行业重心正从追求大模型参数规模，转向关注实际的工具调用与任务执行能力。这一趋势将加速AI代理在企业级自动化和消费者服务中的普及。人机交互与软件应用形态可能因此改变，更高级别的自主AI代理有望成为现实。