生成式AI尚难独立胜任临床推理任务

AI能当医生吗？最新研究揭示大模型在真实诊疗中的致命短板

当AI能快速读完病历、列出一堆可能的诊断，你是否想过：它真的懂病人为什么发烧、胸痛、乏力？美国麻省总医院（MGH）MESH孵化器团队的一项最新研究，用29个真实临床病例给出了答案——AI很会“猜结果”，但还不会“当医生”。

研究团队测试了包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21个主流大语言模型，模拟医生接诊的全过程：先听主诉，再看化验单，接着等CT结果，一步步推进。结果发现，一旦所有信息齐全，几乎所有模型都能“答对”最终诊断——准确率超90%。听起来很厉害？但问题恰恰藏在“一步步来”的过程中。

真正的考验，是“不知道全部答案时怎么想

临床不是考试填空，而是侦探破案。医生要面对模糊症状、不确定的检查结果、时间压力，还要在几种可能性之间权衡取舍——这叫“鉴别诊断”。而在这项研究中，超过80%的AI模型在这一环节“掉链子”：它们要么过早锁定一个诊断，忽略其他可能；要么列出一堆病名，却说不清哪个更合理、该先查什么。

举个例子：一个患者主诉胸痛、出汗、恶心。AI可能立刻跳到“心梗”，但医生会问：年龄多大？有无高血压？心电图有没有动态改变？肌钙蛋白有没有升高？这些细节，AI要么视而不见，要么顺序混乱，甚至在没有心电图时就断定是心梗——这在真实临床中可能误诊、延误治疗。

它不是“不会”，而是“不想”深入思考

为更科学评估，研究团队开发了PrIME-LLM评分系统，覆盖从问诊、检查建议、用药选择到风险评估的全流程。结果显示，所有模型综合得分在64%~78%之间——看似“及格”，实则远未达标。

为什么？因为AI擅长的是“信息对上了，答案就出来了”，而不是“信息不全时，怎么一步步缩小范围”。它像一个背了厚厚一本教科书的考生，一看到题干关键词就直接抄答案，却不会问：“等等，这和我上次遇到的病例有什么不同？”

更值得关注的是，最新一代模型虽然在处理影像报告、实验室数据方面比两年前强了不少，但它们的“推理”依然是模式匹配，不是临床思维。没有对患者生活背景的体察，没有对医疗资源的权衡，也没有对“可能误诊”的警惕。

别被“AI诊断准确率90%”忽悠了

过去一年，不少科技公司宣传“AI可辅助诊断肺癌”“AI读片胜过放射科医生”，这些说法往往只展示“信息完整时”的表现。而真实世界中，90%的初诊病例，医生拿到的都是不完整信息。

麻省总医院的研究团队明确警告：**当前任何AI模型都不应被用于独立决策**。它能帮你快速查文献、整理病史、提醒药物相互作用——但最终拍板的，必须是人。

美国FDA近期已开始收紧AI医疗产品的审批标准，要求企业必须提供“在真实临床流程中”的测试数据，而非仅在理想数据集上跑分。欧盟也在推动《AI法案》将医疗AI列为“高风险”类别，强制要求透明度和人工监督。

未来不是AI取代医生，而是医生用AI更聪明

这场研究不是要否定AI，而是给行业泼一盆冷水：医疗AI的下一程，不是比谁生成的文本更流畅，而是谁能真正理解“不确定性”。

真正有潜力的方向，是让AI成为医生的“第二双眼睛”：在你怀疑是肺炎时，提醒你别漏了肺栓塞；在你犹豫是否开抗生素时，提示该患者最近用过同类药；在你准备做CT前，帮你评估辐射风险与收益。

麻省总医院的结论很清晰：AI不是要取代医生，而是帮医生少犯错、多思考。它的价值，不在于“答对题”，而在于“让医生问出更好的问题”。

下次再看到“AI诊断准确率95%”的新闻，请记住：真正的医学，从不在标准答案里，而在那些未说出口的犹豫、未完成的检查、未被倾听的焦虑中。

CB科技站