Salesforce CoAct-1模型混合点击与程序执行，电脑代理效率与成功率双提升

Salesforce、南加州大学与华盛顿大学研究团队合作，发表新一代电脑使用代理模型CoAct-1，在最新OSWorld基準测试中达成60.76％的成功率，刷新现有纪录，并将平均完成任务步数降至约11步。该研究在设计上突破传统仅依靠图形使用者介面（GUI）操作的限制，将撰写与执行程序码纳入主要行动模式，使代理在执行长链任务与複杂操作时更具效率与稳定性。

CoAct-1研究的创新在于引入程序执行，使其成为与GUI操作同等重要的行动，并以多代理协作架构进行任务分工。系统包含一个调度器（Orchestrator），能依任务特性动态分派子任务给两类代理，其一是负责萤幕点击、表单填写等视觉互动的GUI Operator，另一个则是可直接在作业系统上撰写并执行Python或Bash脚本的程序开发代理（Programmer）。该设计让代理在处理文件管理、资料处理等重複或繁複的任务时，能透过程序一次完成，避免受限于易变的GUI元素，提高任务完成的可靠性。

当程序开发代理完成子任务后，会将与程序码解译器的对话摘要及画面截图，回传给调度器作为记忆的一部分。GUI Operator则回传所需资讯，同样存入调度器记忆。两者之间不共享对话纪录，每次子任务完成后会清除各自的即时记录，以确保专注于当前任务并减少干扰。

在OSWorld测试中，CoAct-1的60.76％成功率明显超越其他同类系统，像是Agent S2.5 w/ o3的56.0％与GTA1 w/ o3的53.1％。更重要的是，该系统在平均步数上大幅缩减，从主流GUI代理的约15步下降到约11步，在长任务链与複杂操作存在显着的效率优势。对于需要在不同环境进行稳定、自动化操作的应用场景，如软件部署、批次资料处理、跨系统文件整理，这种混合操作模式提供了更具弹性与可扩展性的解决方案。

CB科技站

Salesforce CoAct-1模型混合点击与程序执行，电脑代理效率与成功率双提升

与本文相关的文章