北大One-Eval开源框架破解DeepSeek-V4爆火背后的AI测评难题

DeepSeek-V4 刚发布，北大团队10小时交出完整评测报告

DeepSeek-V4 发布不到10小时，北京大学DCAI团队就放出了一份完整的自动化评测报告——不是草稿，不是部分结果，而是涵盖语言、推理、数学、代码、多模态等12个核心维度的全量数据。这份报告没有人工干预的痕迹，全部由一套新工具自动生成。消息一出，国内AI圈炸了：没人想到，原来大模型评测可以快到这种地步。

过去，评估一个新模型有多麻烦？你得先挑几十个公开基准，比如MMLU、C-Eval、HumanEval；然后写脚本把模型输出格式对齐，处理JSON、XML、文本混杂的输出；再跑一遍，等几个小时，最后手动核对答案、排除异常值。光是配置环境，就可能卡上一两天。更别提不同团队用的评测方式五花八门，分数根本没法比。

为什么传统评测越来越不可信？

现在的大模型，训练数据里早就混进了大量公开测试题。你看到的“85分”可能只是模型背过答案，而不是真会推理。有人甚至用GPT-4直接生成训练数据，再拿去训练自己的模型——结果就是，榜单上全是“高分假象”。

更荒唐的是，很多公司把评测当成“黑箱操作”。你问他们怎么算的，对方只甩给你一张图表：“这是权威结果。”没人知道他们用的是哪个版本的MMLU，有没有删掉重复题，有没有偷偷加了训练数据。行业里早就流传一句话：“不是模型太强，是评测太水。”

而北大这次，直接把整个流程从“黑箱”变成“透明实验室”。

One-Eval：像和同事说话一样做评测

北大团队开发的One-Eval，根本不是什么复杂的工具包，它更像一个懂行的助手。

你不用写一行代码。你只要在命令行里输入：

one-eval --model deepseek-v4 --task medical,code,math --output report.pdf

系统会自动：

从120+公开数据集中筛选适合的题目（避开已知污染集）
调用对应接口，启动模型推理
自动校准输出格式（不管模型是输出JSON还是纯文本）
对比标准答案，逐题打分
生成带原始回答、错误分析、置信度评估的PDF报告

最关键是——每一步都留痕。你点开报告里的任意一个错题，能看到模型原话、标准答案、评分依据，甚至能回溯到它调用了哪个数据集的哪一道题。如果你觉得某个分数不合理，可以手动标注“重评”，系统会暂停流程，等你确认后再继续。这不是全自动，是“智能辅助”。

团队还公开了所有评测数据的清洗规则和去重算法，连“哪些题被排除了”都列得清清楚楚。这在业内，是头一回。

评测，早已是门大生意

别以为评测只是技术活。它背后，是真金白银的生意。

Scale AI、SuperAligned这些公司，早就靠评测赚钱：企业想上榜单？交钱。想做合规审计？交钱。想买“专属优化数据集”？还是交钱。他们一边当裁判，一边卖药——诊断出你的模型“数学弱”，就推一套“数学增强数据包”，卖得比模型还贵。

这些公司不公开评测细节，也不开放工具，靠信息差吃红利。而北大这次，把One-Eval全开源了，GitHub上连配置文件、数据过滤脚本、评分逻辑一应俱全。任何人都能用它跑出和北大一模一样的结果。

这意味着什么？意味着未来，谁还信“权威榜单”？你完全可以自己跑，自己发报告。那些靠“神秘评分”收钱的机构，护城河正在被拆。

普通人能用吗？能，而且很简单

One-Eval 不是给大厂用的。它连3090显卡都能跑，支持本地部署，也支持Hugging Face一键调用。你家里有台老笔记本，装上Python，花十分钟按文档配好环境，就能评测你刚下载的开源模型。

已经有开发者在社区里用它跑通了Qwen、GLM-4、Llama 3.1，甚至对比了中文版和英文版的差异。有人发现，某个号称“中文最强”的模型，在法律题上得分比GPT-4还低——但之前没人敢说，因为没人能自己验证。

现在，验证权回到了每个人手里。

这不是工具升级，是权力转移

过去，评测权在大公司手里。他们定义什么是“好模型”，你只能服从。

现在，北大用One-Eval告诉所有人：你可以自己当裁判。

开源地址：https://github.com/DCAI-NP/One-Eval

报告样本：https://dcai-np.github.io/one-eval/reports/deepseek-v4-full.pdf

这不是技术炫技。这是把话语权，还给了真正用模型的人。

One-Eval 自动化评测智能体驱动数据污染防控

CB科技站