华盛顿州立大学研究：ChatGPT在复杂科学判断中自相矛盾

ChatGPT 在科学判断上靠“猜”？华盛顿州立大学最新研究揭真相

你有没有想过，那个语气笃定、回答流畅的 ChatGPT，其实可能在用“掷硬币”的方式给你答案？华盛顿州立大学（WSU）一项刚发布的研究，用实打实的数据戳破了生成式AI“知识权威”的假象。

研究团队由副教授 Mesut Cicek 带领，从2021年以来的商业与科学期刊中精选了719条真实存在的研究假设——这些不是随便编的题目，而是学术圈里真有人在争论、验证的命题。他们把这些题目反复丢给 ChatGPT，每条问10遍，结果令人震惊。

乍一看，ChatGPT 的“正确率”高达80%，听起来很厉害？别急。研究者发现，这背后大量是“碰巧答对”——一旦剔除随机概率，它的实际表现只比抛硬币（50%）高出一点点，最终得分被研究人员打为“D级”，相当于大学里勉强及格的水平。

更糟的是，它在识别“假话”上几乎彻底失效。面对明显错误的科学陈述，它正确识别的概率只有16.4%——也就是说，每6个错误说法，它有5个都信了。

最让人不安的，是它的“人格分裂”倾向。

研究人员发现，在10次重复提问中，同一个问题，ChatGPT 有近三成的情况会前后矛盾。有的时候，它先说“这个说法正确”，下一次又说“这是错的”，再下一次甚至说“取决于上下文”——而提示词一字未改。

有案例显示，一条假设在10次回答中，竟然有5次判为“真”，5次判为“假”。这不是风格差异，是系统性的不一致。想象一下，你问医生“这个药有没有副作用”，他第一次说“有”，第二次说“没有”，第三次说“可能有也可能没有”——你会信他吗？

ChatGPT 不是科学家，它没有逻辑推理能力，也没有真实的知识体系。它的工作原理，是把海量文本里的语言模式拼接重组，然后“猜”你最可能想听什么答案。

它不会“理解”什么是因果关系，也不会质疑数据来源。它只是擅长包装——用流畅的句子、专业的术语、自信的语气，让你误以为它懂。

这就像一个背熟了《医学百科全书》的人，但从未进过医院。你能指望他诊断癌症吗？

有人可能会说：“那新版是不是好了？”

研究团队测试了2025年推出的“ChatGPT-5 mini”版本，结果令人失望：在科学判断任务上，它的表现和2023年的旧版几乎一模一样。没有质的飞跃，没有认知升级——只是语言更顺了，语气更稳了。

这说明，当前AI的发展重点，仍在“表达”而非“思考”。我们被表面的流畅骗了太久。

这项研究不是要否定AI，而是敲响警钟：在商业决策、医疗建议、政策分析、金融风控等关键领域，把AI当“权威”使用，等于把公司命运交给一个会说漂亮话的“算命先生”。

WSU团队明确建议：

我们正处在一个AI越来越“像人”的时代，但越像，越危险。因为人们更容易相信一个看起来像专家的机器，而不是一个真正懂行的人。

真正的智慧，从不靠语气取胜。它需要证据、质疑、验证和责任——而这些，AI一样都没有。

下次当你看到AI给出一个“完美答案”，请先问一句：它，真的知道吗？