Cursor发布Composer 2模型，强调高级编程能力与更低的词元成本

AI编程工具Cursor发布了自研模型Composer 2，并已在产品中上线使用。该模型主打在保持编程能力的同时降低使用成本，定价为每百万输入标记（Token）0.50美元，每百万输出标记2.50美元。官方还推出一个更快的版本，定价为每百万输入标记1.50美元、每百万输出标记7.50美元，且快速版将作为默认选项。

官方公布的CursorBench数据显示，Composer 2在更低的成本下仍保持61.3分，略低于GPT-5.4的high与medium设置，但高于GPT-5.4的low设置，单次任务的中位成本也更低。若与Opus 4.6的high、medium、low三种设置相比，Composer 2则同时处于更高分数和更低成本的位置。

Composer 2在CursorBench得分为61.3，显著高于Composer 1.5的44.2和Composer 1的38.0；在Terminal-Bench 2.0与SWE-bench Multilingual两项测试中，Composer 2分别获得61.7和73.7分，也都优于前两代模型。

Cursor表示，Composer 2的性能提升得益于采用持续预训练，使后续强化学习建立在更强的基础之上，再针对长任务进行训练，从而提升模型处理需要数百个操作步骤问题的能力。官方将这类需要连续执行多步骤操作的编程任务称为“长程编程任务”（Long-horizon Coding Tasks）。

随着开发者越来越多地将AI用于编程、调试与推理等工作，标记成本已成为评估模型时不可忽视的因素。从Cursor此次公布的数据来看，Composer 2不仅在模型能力上有所提升，也试图在性能与使用成本之间取得更具吸引力的平衡。

不过，这组模型比较结果的测试条件并不完全一致。Cursor指出，Anthropic模型的分数采用Claude Code评估执行器，OpenAI模型的分数采用Simple Codex评估执行器，而Cursor自家的分数则依据Terminal-Bench 2.0指定的Harbor评估框架，在默认设置下执行，每组模型与代理组合各测试5次后取平均。因此，这些数据可作为观察模型表现的参考，但若要直接比较不同模型，仍需考虑评估执行方式与测试条件的差异。

Cursor Composer 2

CB科技站

Cursor发布Composer 2模型，强调高级编程能力与更低的词元成本

与本文相关的文章