
Salesforce、南加州大学与华盛顿大学研究团队合作,发表新一代电脑使用代理模型CoAct-1,在最新OSWorld基準测试中达成60.76%的成功率,刷新现有纪录,并将平均完成任务步数降至约11步。该研究在设计上突破传统仅依靠图形使用者介面(GUI)操作的限制,将撰写与执行程序码纳入主要行动模式,使代理在执行长链任务与複杂操作时更具效率与稳定性。
CoAct-1研究的创新在于引入程序执行,使其成为与GUI操作同等重要的行动,并以多代理协作架构进行任务分工。系统包含一个调度器(Orchestrator),能依任务特性动态分派子任务给两类代理,其一是负责萤幕点击、表单填写等视觉互动的GUI Operator,另一个则是可直接在作业系统上撰写并执行Python或Bash脚本的程序开发代理(Programmer)。该设计让代理在处理文件管理、资料处理等重複或繁複的任务时,能透过程序一次完成,避免受限于易变的GUI元素,提高任务完成的可靠性。
当程序开发代理完成子任务后,会将与程序码解译器的对话摘要及画面截图,回传给调度器作为记忆的一部分。GUI Operator则回传所需资讯,同样存入调度器记忆。两者之间不共享对话纪录,每次子任务完成后会清除各自的即时记录,以确保专注于当前任务并减少干扰。
在OSWorld测试中,CoAct-1的60.76%成功率明显超越其他同类系统,像是Agent S2.5 w/ o3的56.0%与GTA1 w/ o3的53.1%。更重要的是,该系统在平均步数上大幅缩减,从主流GUI代理的约15步下降到约11步,在长任务链与複杂操作存在显着的效率优势。对于需要在不同环境进行稳定、自动化操作的应用场景,如软件部署、批次资料处理、跨系统文件整理,这种混合操作模式提供了更具弹性与可扩展性的解决方案。