Cursor实验多代理协作自动编写代码，一周从零打造浏览器代码库突破百万行

AI编程工具Cursor公布了一项长期实验成果，团队尝试让多个编程代理在单一项目上连续运行数周，以并行方式推进原本需要人类团队数月才能完成的工程规模。研究团队在单个项目中同时运行数百个代理，累计生成超过百万行代码，消耗数十亿token。在协调架构上，团队采用分工设计，使系统能够以周为单位稳定运行。

Cursor在文中指出，多代理协作的主要障碍不在于能否同时运行大量代理，而在于如何避免彼此卡顿和重复劳动。

研究团队将角色拆分为规划者与执行者，采用流水线式分工替代扁平结构。规划者持续遍历代码库并生成任务，必要时可衍生子规划者，使规划过程本身也能并行化；执行者则专注于完成被指派的具体任务，完成后提交变更，无需兼顾全局协调。每轮迭代结束后，由裁判代理判断是否继续推进。

开发团队以从零构建网页浏览器作为压力测试，让多代理连续运行近一周，累计产出超过百万行代码、约1000个文件，并将代码开源至GitHub供外界查阅。团队还将相同方法应用于自身代码库的工程任务，例如在不改变项目基础的前提下，将前端框架Solid迁移至React，历时三周以上，产生数十万行的新增与删除变更，目前已启动测试并评估合并可行性。

研究人员特别指出，模型选择直接影响长期自主任务的稳定性。GPT-5.2系列在长期运行中更能遵循指令、保持专注、避免偏离目标，且能更完整精准地完成实现；相比之下，Opus 4.5更容易提前中止或采取捷径，将控制权交还人工。研究人员认为，不同模型适用于不同角色，例如GPT-5.2在规划任务上的表现优于GPT-5.1-codex，因此团队已改为按角色选择模型，而非使用单一模型包揽全部工作。

不过，研究人员坦言，多代理协调仍是难题，当前方法虽可运行，但距离最优仍有差距。例如，规划者需在任务完成后被及时唤醒以继续安排后续工作，避免出现等待空窗期；部分代理可能运行时间过长，亟需更精细的节奏控制。此外，系统仍依赖定期重启以对抗漂移，防止陷入局部最优而遗忘整体目标。

Cursor 多代理协作自动编程浏览器代码库

CB科技站

Cursor实验多代理协作自动编写代码，一周从零打造浏览器代码库突破百万行

与本文相关的文章