最新消息:关注人工智能 AI赋能新媒体运营

谷歌将电脑操作功能原生集成至Gemini 3.5 Flash

科技资讯 admin 浏览

Gemini 3.5 Flash 原生集成计算机操作能力

谷歌 DeepMind 团队将原生的计算机使用能力直接集成到了 Gemini 3.5 Flash 模型中。开发者现在只需调用单一模型,就能构建出在浏览器、手机和电脑桌面上自主看屏并执行操作的 AI 智能体。

此前,计算机操作仅作为独立模型提供。开发者需要在不同模型间切换,并手动传递上下文。原生集成跑通后,AI 执行跨平台长任务时不再需要人工接力传信息,开发链路被直接缩短。

上下文连续流动与安全防线

AI 智能体的核心瓶颈往往不在单个工具的极限,而在于多工具切换时的上下文丢失。搜索、地图和计算机操作被统一进同一模型架构,信息得以连续流动,复杂任务中途失败的概率随之下降。这就像把原本分散的独立建筑打通成内部连通的综合体,省去了跨建筑通信的延迟与差错。架构层面的改动,有望为代理式任务的可靠性和响应延迟带来实质性的改善。

这项能力主要落地于三个场景:需要数小时甚至数天持续运行的自动化任务、自动验证用户界面一致性的持续性软件测试,以及跨应用的知识性工作。这些场景高度依赖上下文连续性,能替代人类执行重复且高能耗的操作。

安全设计方面,谷歌部署了针对性对抗训练、敏感操作的企业级安全护栏,以及间接提示注入检测。面对开放且不可控的真实计算机环境,多层防御策略将为企业用户构建相对完整的安全边界。