最新消息:关注人工智能 AI赋能新媒体运营

Cursor Composer 2 编码能力超越 Claude Opus?基准测试引发AI编程圈争议

科技资讯 admin 浏览

Cursor 推出自研模型 Composer 2,编码效率与成本双杀

3 月 19 日,AI 编程工具 Cursor 正式上线自研编码模型 Composer 2。消息一出,开发者论坛和 Reddit 的编程板块瞬间刷屏。不是因为它是“下一个 GPT-5”,而是因为它在真实编码场景里,干掉了 Anthropic 的王牌模型 Claude Opus 4.6。

官方数据显示,在 Terminal-Bench 2.0 测试中,Composer 2 得分 61.7%,而 Claude Opus 4.6 在同样环境下只拿到 58.0%。更让人意外的是,在 Cursor 自己的内部测试集 CursorBench 上,Composer 2 达到 61.3%,比上一代提升了近 40%,也超过了 Opus 4.6 的 58.2%。SWE-bench Multilingual 多语言项目中,Composer 2 更是冲到 73.7%,远超前代。

QQ_1773968400375.png

别光看数字,关键在“用起来顺手”

有人马上指出:Anthropic 官方自己跑的 Terminal-Bench 2.0 成绩是 65.4%,比 Cursor 的高不少。这没错,但两个数字根本不是同一套系统。

Anthropic 用的是自家优化过的环境,参数调到极致,测试流程也更宽松。而 Cursor 是在真实开发者常用的 Harbor 等代理框架下,跑 5 轮取平均,模拟的是你每天在 IDE 里敲代码、改 bug、写测试的真实节奏。换句话说,Anthropic 的数字像是“专业选手在训练营里跑出的最好成绩”,而 Cursor 的数字是你下班后打开电脑,边喝咖啡边用的体验。

Cursor 在公告里也坦白:“结果依赖 agent、harness 和设置。”——他们没想骗你,只是不想让你被“实验室神话”带偏。

价格便宜到离谱,成本只有对手的十分之一

真正让开发者拍大腿的,是价格。

Composer 2 的定价是:每百万输入 token 0.5 美元,输出 2.5 美元。而 Claude Opus 4.6 是 5 美元 / 25 美元,GPT-5.4 是 2.5 美元 / 15 美元。这意味着,你用 Composer 2 做日常编码辅助,成本只有 Opus 的 1/10。

这不是“便宜点”的概念,是“你每天用它改 50 个文件,一个月省下 200 美元”的差距。对个人开发者、初创团队、甚至大厂里的中型项目组来说,这笔账太实在了。

Cursor 表示,Composer 2 从设计之初就不是为了“刷榜”,而是为了解决“写代码太慢、太贵”的问题。他们用了自研的强化学习训练方式,加上一种叫 “self-summarization” 的技术,让模型能自己压缩长上下文、减少重复计算,速度更快、响应更稳。结果就是——你敲完一句注释,它已经把整个函数补好了,还不卡。

不是要取代 GPT 或 Claude,而是让你 smarter

现在没人指望一个模型包打天下了。真正的趋势是:用对的模型做对的事。

有人在 Hacker News 上分享:他现在用 GPT-5.4 做复杂架构设计、写技术文档,但一到写单元测试、重构旧代码、写 SQL 查询,就切回 Composer 2。结果是:质量没掉,成本砍了一半,响应速度还快了 3 倍。

VentureBeat 和 The New Stack 都提到,Composer 2 的出现,让“多模型路由”从概念变成刚需。你不需要每次都选“最强”的,而是选“最合适”的。这就像你不会用跑车去买菜,也不会用自行车去拉货。

从 Composer 1 到 2,Cursor 的路子越来越清晰

Composer 2 是 Cursor 的第三代自研模型。第一代是 2025 年 10 月上线的 Composer 1,主打基础补全;2026 年 2 月的 1.5 版开始支持多文件上下文,但速度慢、成本高。这次的 2.0 版,重点只有一个:**长周期任务**。

什么叫长周期任务?比如:你接手一个没人维护的 Python 项目,要搞懂它的依赖关系、改掉 15 个过时的 API 调用、写 50 个新测试、再部署到 Docker。传统模型撑不到第三步就乱了,Composer 2 能稳稳跟到结束。

现在,这个模型已经默认内置在 Cursor IDE 里,所有订阅用户都能免费试用。不少用户反馈:“以前用 AI 写代码像请了个实习生,总要返工;现在像有个老搭档,你刚开口,他就知道你要什么。”

别急着下结论,但值得试试

当然,没人敢说 Composer 2 是“最强编码模型”。Benchmark 是死的,项目是活的。有人在 GitHub 上测试发现,它在处理 Rust 的生命周期注解时偶尔会“脑补”错误;也有团队说,它对特定框架(比如 Next.js 15)的最新 API 理解还不够深。

但这些都不是致命伤。真正的问题是:**你愿不愿意花 10 分钟,把 Composer 2 当默认模型跑一跑你的项目?**

Cursor 已经把门槛降到了零。你不用改代码、不用调 API、不用学新工具——打开 IDE,它就在那儿。如果你每天写代码超过两小时,这可能就是你今年最值得试一次的升级。

数据来源:Cursor 官方公告、Hacker News 用户实测、The New Stack 报道,截至 2026 年 3 月 20 日。实时性能可查:[tbench.ai](https://tbench.ai) 或 [Cursor 官网](https://cursor.sh)