Cursor Composer 2 编码能力超越 Claude Opus？基准测试引发AI编程圈争议

Cursor 推出自研模型 Composer 2，编码效率与成本双杀

3 月 19 日，AI 编程工具 Cursor 正式上线自研编码模型 Composer 2。消息一出，开发者论坛和 Reddit 的编程板块瞬间刷屏。不是因为它是“下一个 GPT-5”，而是因为它在真实编码场景里，干掉了 Anthropic 的王牌模型 Claude Opus 4.6。

官方数据显示，在 Terminal-Bench 2.0 测试中，Composer 2 得分 61.7%，而 Claude Opus 4.6 在同样环境下只拿到 58.0%。更让人意外的是，在 Cursor 自己的内部测试集 CursorBench 上，Composer 2 达到 61.3%，比上一代提升了近 40%，也超过了 Opus 4.6 的 58.2%。SWE-bench Multilingual 多语言项目中，Composer 2 更是冲到 73.7%，远超前代。

别光看数字，关键在“用起来顺手”

有人马上指出：Anthropic 官方自己跑的 Terminal-Bench 2.0 成绩是 65.4%，比 Cursor 的高不少。这没错，但两个数字根本不是同一套系统。

Anthropic 用的是自家优化过的环境，参数调到极致，测试流程也更宽松。而 Cursor 是在真实开发者常用的 Harbor 等代理框架下，跑 5 轮取平均，模拟的是你每天在 IDE 里敲代码、改 bug、写测试的真实节奏。换句话说，Anthropic 的数字像是“专业选手在训练营里跑出的最好成绩”，而 Cursor 的数字是你下班后打开电脑，边喝咖啡边用的体验。

Cursor 在公告里也坦白：“结果依赖 agent、harness 和设置。”——他们没想骗你，只是不想让你被“实验室神话”带偏。

价格便宜到离谱，成本只有对手的十分之一

真正让开发者拍大腿的，是价格。

Composer 2 的定价是：每百万输入 token 0.5 美元，输出 2.5 美元。而 Claude Opus 4.6 是 5 美元 / 25 美元，GPT-5.4 是 2.5 美元 / 15 美元。这意味着，你用 Composer 2 做日常编码辅助，成本只有 Opus 的 1/10。

这不是“便宜点”的概念，是“你每天用它改 50 个文件，一个月省下 200 美元”的差距。对个人开发者、初创团队、甚至大厂里的中型项目组来说，这笔账太实在了。

Cursor 表示，Composer 2 从设计之初就不是为了“刷榜”，而是为了解决“写代码太慢、太贵”的问题。他们用了自研的强化学习训练方式，加上一种叫 “self-summarization” 的技术，让模型能自己压缩长上下文、减少重复计算，速度更快、响应更稳。结果就是——你敲完一句注释，它已经把整个函数补好了，还不卡。

不是要取代 GPT 或 Claude，而是让你 smarter

现在没人指望一个模型包打天下了。真正的趋势是：用对的模型做对的事。

有人在 Hacker News 上分享：他现在用 GPT-5.4 做复杂架构设计、写技术文档，但一到写单元测试、重构旧代码、写 SQL 查询，就切回 Composer 2。结果是：质量没掉，成本砍了一半，响应速度还快了 3 倍。

VentureBeat 和 The New Stack 都提到，Composer 2 的出现，让“多模型路由”从概念变成刚需。你不需要每次都选“最强”的，而是选“最合适”的。这就像你不会用跑车去买菜，也不会用自行车去拉货。

从 Composer 1 到 2，Cursor 的路子越来越清晰

Composer 2 是 Cursor 的第三代自研模型。第一代是 2025 年 10 月上线的 Composer 1，主打基础补全；2026 年 2 月的 1.5 版开始支持多文件上下文，但速度慢、成本高。这次的 2.0 版，重点只有一个：**长周期任务**。

什么叫长周期任务？比如：你接手一个没人维护的 Python 项目，要搞懂它的依赖关系、改掉 15 个过时的 API 调用、写 50 个新测试、再部署到 Docker。传统模型撑不到第三步就乱了，Composer 2 能稳稳跟到结束。

现在，这个模型已经默认内置在 Cursor IDE 里，所有订阅用户都能免费试用。不少用户反馈：“以前用 AI 写代码像请了个实习生，总要返工；现在像有个老搭档，你刚开口，他就知道你要什么。”

别急着下结论，但值得试试

当然，没人敢说 Composer 2 是“最强编码模型”。Benchmark 是死的，项目是活的。有人在 GitHub 上测试发现，它在处理 Rust 的生命周期注解时偶尔会“脑补”错误；也有团队说，它对特定框架（比如 Next.js 15）的最新 API 理解还不够深。

但这些都不是致命伤。真正的问题是：**你愿不愿意花 10 分钟，把 Composer 2 当默认模型跑一跑你的项目？**

Cursor 已经把门槛降到了零。你不用改代码、不用调 API、不用学新工具——打开 IDE，它就在那儿。如果你每天写代码超过两小时，这可能就是你今年最值得试一次的升级。

数据来源：Cursor 官方公告、Hacker News 用户实测、The New Stack 报道，截至 2026 年 3 月 20 日。实时性能可查：[tbench.ai](https://tbench.ai) 或 [Cursor 官网](https://cursor.sh)

CB科技站