当AI遇上“人类终极考试”:高分背后的真相
你可能看过这样的新闻:AI在高考数学题中得满分,在律师资格考试中轻松过关,甚至能写诗、编代码、做科研综述。但最近一项名为“人类终极考试”(Human Longevity Exam,简称HLE)的测试,却给这场狂欢泼了一盆冷水——GPT-4o在2500道由全球顶尖专家设计的题目中,只拿到了2.7分(满分100),而表现最好的模型,也不过8分。
这不是一场普通的AI评测。HLE由来自50个国家的近1000名科学家、教授和工程师联合出题,涵盖量子物理、有机合成机制、非欧几何证明、神经科学前沿模型等真实科研场景。题目不靠记忆,不靠套路,而是要求你真正“懂”——懂原理、懂推导、懂边界。一道化学题可能要你解释一个从未在教科书里出现过的反应中间体稳定性;一道数学题,可能需要你构造一个反例来推翻一个被广泛接受的猜想。
为什么过去那些“AI高分神话”崩塌了?因为它们太容易被“骗”了。
以前的测试,比如MMLU、GSM8K,很多题目早就在网上被反复讨论、答案被爬取、题库被公开。AI不是“会做题”,而是“背了题”。你问它“牛顿第二定律是什么”,它能答得比你老师还标准——但你要是问它:“如果在一个有摩擦的斜面上,一个物体以非恒定加速度下滑,如何用微分方程重构其运动轨迹?”它就卡壳了。HLE就是为这种“伪理解”量身打造的防火墙:每道题都经过三轮专家盲审,确保没有公开答案、没有标准模板、没有网络可查的痕迹。
结果令人震惊。即便像Claude 3.5 Sonnet、Gemini 1.5 Pro这样的“顶配模型”,准确率也低于5%。就连OpenAI最新发布的o1模型——被宣传为“推理能力突破”的代表——也只拿到了8%。这相当于一个高中生在博士资格考中随机蒙答案。
这不是AI变笨了,而是我们终于开始问真正难的问题了。
AI的“高分”是幻觉,人类的智慧仍在高处
你可能会说:“AI不是已经能写论文、做实验设计了吗?”没错,它能模仿,能拼接,能生成看似专业的段落。但当你深挖下去——比如让它解释一篇《自然》论文中某个关键图示的物理意义,或预测某个新催化剂在特定溶剂中的反应选择性——它立刻露出马脚。它不懂“为什么”,它只懂“什么看起来像对的”。
剑桥大学一位参与HLE设计的化学教授说:“我们故意设计了一道题,要求根据两个已知反应的能垒数据,推断第三个未发表反应的过渡态结构。AI给出了一个‘合理’的结构,但完全忽略了空间位阻效应——而这是任何一个研究生第一年就该掌握的常识。”
更讽刺的是,一些AI在HLE中甚至“自创答案”。它不承认自己不知道,而是编出一套看似专业的伪解释,用术语堆砌掩盖无知。这种“自信的错误”,比直接答错更危险——因为它会误导人类用户,尤其是在医疗、工程、法律等高风险领域。
我们该害怕AI,还是该重新定义“聪明”?
HLE的出现,不是要否定AI的价值,而是提醒我们:别把“流畅”当成“智慧”,别把“检索”当成“理解”。
今天的AI,更像是一个超级博学的速记员,而不是一个真正的思考者。它能帮你整理文献、生成初稿、优化代码结构,但它无法在未知领域中开辟新路。真正的科学突破,往往来自一个直觉、一次失败的实验、一个被主流忽视的异常数据——这些,AI还远远无法触及。
或许,我们该停止用“能否通过考试”来衡量AI,转而问:它能不能帮我们提出更好的问题?它能不能识别出人类专家都忽略的矛盾?它能不能在数据的噪声中,发现一条尚未被命名的规律?
HLE的结果,不是AI的终点,而是人类重新认识智能的起点。我们不需要AI取代科学家,我们需要它成为科学家的“协作者”——一个能听懂困惑、能识别盲区、能辅助验证,但永远不敢自称“懂”的助手。
毕竟,真正的智慧,不在于答对多少题,而在于知道哪些题,我们还没能力答。