Gemini 3.5 Flash 原生集成计算机操作能力
谷歌 DeepMind 团队将原生的计算机使用能力直接集成到了 Gemini 3.5 Flash 模型中。开发者现在只需调用单一模型,就能构建出在浏览器、手机和电脑桌面上自主看屏并执行操作的 AI 智能体。
此前,计算机操作仅作为独立模型提供。开发者需要在不同模型间切换,并手动传递上下文。原生集成跑通后,AI 执行跨平台长任务时不再需要人工接力传信息,开发链路被直接缩短。
上下文连续流动与安全防线
AI 智能体的核心瓶颈往往不在单个工具的极限,而在于多工具切换时的上下文丢失。搜索、地图和计算机操作被统一进同一模型架构,信息得以连续流动,复杂任务中途失败的概率随之下降。这就像把原本分散的独立建筑打通成内部连通的综合体,省去了跨建筑通信的延迟与差错。架构层面的改动,有望为代理式任务的可靠性和响应延迟带来实质性的改善。
这项能力主要落地于三个场景:需要数小时甚至数天持续运行的自动化任务、自动验证用户界面一致性的持续性软件测试,以及跨应用的知识性工作。这些场景高度依赖上下文连续性,能替代人类执行重复且高能耗的操作。
安全设计方面,谷歌部署了针对性对抗训练、敏感操作的企业级安全护栏,以及间接提示注入检测。面对开放且不可控的真实计算机环境,多层防御策略将为企业用户构建相对完整的安全边界。