最新消息:关注人工智能 AI赋能新媒体运营

华盛顿州立大学研究:ChatGPT在复杂科学判断中自相矛盾

科技资讯 admin 浏览

ChatGPT 在科学判断上靠“猜”?华盛顿州立大学最新研究揭真相

你有没有想过,那个语气笃定、回答流畅的 ChatGPT,其实可能在用“掷硬币”的方式给你答案?华盛顿州立大学(WSU)一项刚发布的研究,用实打实的数据戳破了生成式AI“知识权威”的假象。

研究团队由副教授 Mesut Cicek 带领,从2021年以来的商业与科学期刊中精选了719条真实存在的研究假设——这些不是随便编的题目,而是学术圈里真有人在争论、验证的命题。他们把这些题目反复丢给 ChatGPT,每条问10遍,结果令人震惊。

“80%正确率”是假象,真实水平接近瞎猜

乍一看,ChatGPT 的“正确率”高达80%,听起来很厉害?别急。研究者发现,这背后大量是“碰巧答对”——一旦剔除随机概率,它的实际表现只比抛硬币(50%)高出一点点,最终得分被研究人员打为“D级”,相当于大学里勉强及格的水平。

更糟的是,它在识别“假话”上几乎彻底失效。面对明显错误的科学陈述,它正确识别的概率只有16.4%——也就是说,每6个错误说法,它有5个都信了。

同一问题,十次回答,五次打脸

最让人不安的,是它的“人格分裂”倾向。

研究人员发现,在10次重复提问中,同一个问题,ChatGPT 有近三成的情况会前后矛盾。有的时候,它先说“这个说法正确”,下一次又说“这是错的”,再下一次甚至说“取决于上下文”——而提示词一字未改。

有案例显示,一条假设在10次回答中,竟然有5次判为“真”,5次判为“假”。这不是风格差异,是系统性的不一致。想象一下,你问医生“这个药有没有副作用”,他第一次说“有”,第二次说“没有”,第三次说“可能有也可能没有”——你会信他吗?

AI没有“大脑”,只有“模仿”

ChatGPT 不是科学家,它没有逻辑推理能力,也没有真实的知识体系。它的工作原理,是把海量文本里的语言模式拼接重组,然后“猜”你最可能想听什么答案。

它不会“理解”什么是因果关系,也不会质疑数据来源。它只是擅长包装——用流畅的句子、专业的术语、自信的语气,让你误以为它懂。

这就像一个背熟了《医学百科全书》的人,但从未进过医院。你能指望他诊断癌症吗?

更新到“ChatGPT-5 mini”,也没变强

有人可能会说:“那新版是不是好了?”

研究团队测试了2025年推出的“ChatGPT-5 mini”版本,结果令人失望:在科学判断任务上,它的表现和2023年的旧版几乎一模一样。没有质的飞跃,没有认知升级——只是语言更顺了,语气更稳了。

这说明,当前AI的发展重点,仍在“表达”而非“思考”。我们被表面的流畅骗了太久。

企业别再拿AI当“专家顾问”

这项研究不是要否定AI,而是敲响警钟:在商业决策、医疗建议、政策分析、金融风控等关键领域,把AI当“权威”使用,等于把公司命运交给一个会说漂亮话的“算命先生”。

WSU团队明确建议:

  • 任何AI生成的结论,必须由人类专家复核;
  • 不要依赖单一AI的回答,尤其在高风险场景下;
  • 企业应立即开展“AI素养培训”,让员工明白:AI不是答案机器,是辅助工具。

我们正处在一个AI越来越“像人”的时代,但越像,越危险。因为人们更容易相信一个看起来像专家的机器,而不是一个真正懂行的人。

真正的智慧,从不靠语气取胜。它需要证据、质疑、验证和责任——而这些,AI一样都没有。

下次当你看到AI给出一个“完美答案”,请先问一句:它,真的知道吗?