谷歌将电脑操作功能原生集成至Gemini 3.5 Flash

Gemini 3.5 Flash 原生集成计算机操作能力

谷歌 DeepMind 团队将原生的计算机使用能力直接集成到了 Gemini 3.5 Flash 模型中。开发者现在只需调用单一模型，就能构建出在浏览器、手机和电脑桌面上自主看屏并执行操作的 AI 智能体。

此前，计算机操作仅作为独立模型提供。开发者需要在不同模型间切换，并手动传递上下文。原生集成跑通后，AI 执行跨平台长任务时不再需要人工接力传信息，开发链路被直接缩短。

上下文连续流动与安全防线

AI 智能体的核心瓶颈往往不在单个工具的极限，而在于多工具切换时的上下文丢失。搜索、地图和计算机操作被统一进同一模型架构，信息得以连续流动，复杂任务中途失败的概率随之下降。这就像把原本分散的独立建筑打通成内部连通的综合体，省去了跨建筑通信的延迟与差错。架构层面的改动，有望为代理式任务的可靠性和响应延迟带来实质性的改善。

这项能力主要落地于三个场景：需要数小时甚至数天持续运行的自动化任务、自动验证用户界面一致性的持续性软件测试，以及跨应用的知识性工作。这些场景高度依赖上下文连续性，能替代人类执行重复且高能耗的操作。

安全设计方面，谷歌部署了针对性对抗训练、敏感操作的企业级安全护栏，以及间接提示注入检测。面对开放且不可控的真实计算机环境，多层防御策略将为企业用户构建相对完整的安全边界。

CB科技站

谷歌将电脑操作功能原生集成至Gemini 3.5 Flash

Gemini 3.5 Flash 原生集成计算机操作能力

上下文连续流动与安全防线

与本文相关的文章