AI测评跑偏了:我们正在用编程题,评估整个经济的未来
卡内基梅隆大学和斯坦福大学的最新研究揭示了一个被广泛忽视的真相:今天几乎所有主流的人工智能测评系统,都在用“写代码”来判断AI能不能干活。可现实是,美国92%的就业岗位根本不需要写一行代码。
研究人员分析了43个主流AI测评基准,涵盖7.2万个任务,再与美国劳工部O*NET数据库中1016种真实职业做对比,结果令人震惊:
- 管理类工作——数字化程度高达88%,但在AI测评里只占1.4%;
- 法律从业者——70%的工作已数字化,可AI测试里连0.3%的份额都没有;
- 建筑、会计、医疗行政、人力资源……这些支撑社会运转的岗位,几乎全被排除在测评体系之外。
更荒谬的是,当前AI测评最看重的两项能力——“搜索信息”和“操作电脑”——加起来只覆盖了美国不到5%的岗位。而真正决定工作成效的“人际沟通”“情绪判断”“协调资源”“谈判协商”等能力,几乎在所有测试中都找不到踪影。
不是AI不行,是考题太假
你以为AI已经能“自主完成任务”了?别被表象骗了。
在软件开发领域,AI表现最好,可一旦任务从“写一个函数”变成“重构一个有十年历史的遗留系统”,成功率直接断崖式下跌。不是AI变笨了,是考题太简单了。
现实中的工作,没有清晰的输入输出,没有标准答案,更没有自动评分系统。一个项目经理要协调十个人的排期,一个律师要判断客户情绪是否影响证词可信度,一个护士要决定何时该叫医生——这些,AI连“题干”都看不懂。
斯坦福团队指出,当前AI测评像在用自行车比赛来评估汽车工业的发展——你赢了赛道,但没人在路上骑自行车了。
市场正在用真金白银投票
Anthropic的内部数据显示,其AI API调用中,近一半仍来自代码相关场景——开发辅助、测试生成、调试提示。换句话说,企业愿意为AI付钱,主要还是因为它能帮程序员少写点代码。
但这不是未来。麦肯锡2024年报告指出,到2030年,全球AI可创造的经济价值中,超过60%将来自非技术岗位:客户服务自动化、合同智能审核、工程图纸分析、医疗文书处理、供应链调度……这些领域,AI根本还没被真正测试过。
更现实的是:企业已经在偷偷用AI处理这些任务了。比如,某大型律所用AI初筛5000份合同条款,效率提升70%;某建筑公司用AI自动识别图纸冲突,节省了数百万返工成本。但这些应用,没有一个出现在主流AI排行榜上。
我们需要的不是“更聪明的AI”,而是“更真实的考卷”
研究者呼吁:是时候重新设计AI的“高考”了。
- 把管理、法律、工程、医疗行政等职业的真实工作流程,做成测评题;
- 不再只看“最终答案对不对”,而要评估AI如何拆解模糊目标、如何与人协作、如何处理不确定性;
- 引入“过程评分”——比如AI在模拟客户咨询时,是否能识别情绪转折?在处理报销单时,能否发现异常报销模式?
这不只是学术问题,更是商业机会。谁先构建出能评估AI在真实职场中表现的基准,谁就能定义下一代AI产品的标准。
我们不需要更多能写Python的AI。我们需要能帮护士排班、帮建筑师改图纸、帮HR筛选简历、帮小企业主做财务预测的AI。
如果继续用编程题来衡量AI的未来,我们可能会错过它真正改变经济的时刻——不是在GitHub上,而是在办公室、工地、医院和法庭里。