AI编程工具Cursor公布了一项长期实验成果,团队尝试让多个编程代理在单一项目上连续运行数周,以并行方式推进原本需要人类团队数月才能完成的工程规模。研究团队在单个项目中同时运行数百个代理,累计生成超过百万行代码,消耗数十亿token。在协调架构上,团队采用分工设计,使系统能够以周为单位稳定运行。
Cursor在文中指出,多代理协作的主要障碍不在于能否同时运行大量代理,而在于如何避免彼此卡顿和重复劳动。
研究团队将角色拆分为规划者与执行者,采用流水线式分工替代扁平结构。规划者持续遍历代码库并生成任务,必要时可衍生子规划者,使规划过程本身也能并行化;执行者则专注于完成被指派的具体任务,完成后提交变更,无需兼顾全局协调。每轮迭代结束后,由裁判代理判断是否继续推进。
开发团队以从零构建网页浏览器作为压力测试,让多代理连续运行近一周,累计产出超过百万行代码、约1000个文件,并将代码开源至GitHub供外界查阅。团队还将相同方法应用于自身代码库的工程任务,例如在不改变项目基础的前提下,将前端框架Solid迁移至React,历时三周以上,产生数十万行的新增与删除变更,目前已启动测试并评估合并可行性。
研究人员特别指出,模型选择直接影响长期自主任务的稳定性。GPT-5.2系列在长期运行中更能遵循指令、保持专注、避免偏离目标,且能更完整精准地完成实现;相比之下,Opus 4.5更容易提前中止或采取捷径,将控制权交还人工。研究人员认为,不同模型适用于不同角色,例如GPT-5.2在规划任务上的表现优于GPT-5.1-codex,因此团队已改为按角色选择模型,而非使用单一模型包揽全部工作。
不过,研究人员坦言,多代理协调仍是难题,当前方法虽可运行,但距离最优仍有差距。例如,规划者需在任务完成后被及时唤醒以继续安排后续工作,避免出现等待空窗期;部分代理可能运行时间过长,亟需更精细的节奏控制。此外,系统仍依赖定期重启以对抗漂移,防止陷入局部最优而遗忘整体目标。