AI能当医生吗?最新研究揭示大模型在真实诊疗中的致命短板
当AI能快速读完病历、列出一堆可能的诊断,你是否想过:它真的懂病人为什么发烧、胸痛、乏力?美国麻省总医院(MGH)MESH孵化器团队的一项最新研究,用29个真实临床病例给出了答案——AI很会“猜结果”,但还不会“当医生”。
研究团队测试了包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21个主流大语言模型,模拟医生接诊的全过程:先听主诉,再看化验单,接着等CT结果,一步步推进。结果发现,一旦所有信息齐全,几乎所有模型都能“答对”最终诊断——准确率超90%。听起来很厉害?但问题恰恰藏在“一步步来”的过程中。
真正的考验,是“不知道全部答案时怎么想
临床不是考试填空,而是侦探破案。医生要面对模糊症状、不确定的检查结果、时间压力,还要在几种可能性之间权衡取舍——这叫“鉴别诊断”。而在这项研究中,超过80%的AI模型在这一环节“掉链子”:它们要么过早锁定一个诊断,忽略其他可能;要么列出一堆病名,却说不清哪个更合理、该先查什么。
举个例子:一个患者主诉胸痛、出汗、恶心。AI可能立刻跳到“心梗”,但医生会问:年龄多大?有无高血压?心电图有没有动态改变?肌钙蛋白有没有升高?这些细节,AI要么视而不见,要么顺序混乱,甚至在没有心电图时就断定是心梗——这在真实临床中可能误诊、延误治疗。
它不是“不会”,而是“不想”深入思考
为更科学评估,研究团队开发了PrIME-LLM评分系统,覆盖从问诊、检查建议、用药选择到风险评估的全流程。结果显示,所有模型综合得分在64%~78%之间——看似“及格”,实则远未达标。
为什么?因为AI擅长的是“信息对上了,答案就出来了”,而不是“信息不全时,怎么一步步缩小范围”。它像一个背了厚厚一本教科书的考生,一看到题干关键词就直接抄答案,却不会问:“等等,这和我上次遇到的病例有什么不同?”
更值得关注的是,最新一代模型虽然在处理影像报告、实验室数据方面比两年前强了不少,但它们的“推理”依然是模式匹配,不是临床思维。没有对患者生活背景的体察,没有对医疗资源的权衡,也没有对“可能误诊”的警惕。
别被“AI诊断准确率90%”忽悠了
过去一年,不少科技公司宣传“AI可辅助诊断肺癌”“AI读片胜过放射科医生”,这些说法往往只展示“信息完整时”的表现。而真实世界中,90%的初诊病例,医生拿到的都是不完整信息。
麻省总医院的研究团队明确警告:**当前任何AI模型都不应被用于独立决策**。它能帮你快速查文献、整理病史、提醒药物相互作用——但最终拍板的,必须是人。
美国FDA近期已开始收紧AI医疗产品的审批标准,要求企业必须提供“在真实临床流程中”的测试数据,而非仅在理想数据集上跑分。欧盟也在推动《AI法案》将医疗AI列为“高风险”类别,强制要求透明度和人工监督。
未来不是AI取代医生,而是医生用AI更聪明
这场研究不是要否定AI,而是给行业泼一盆冷水:医疗AI的下一程,不是比谁生成的文本更流畅,而是谁能真正理解“不确定性”。
真正有潜力的方向,是让AI成为医生的“第二双眼睛”:在你怀疑是肺炎时,提醒你别漏了肺栓塞;在你犹豫是否开抗生素时,提示该患者最近用过同类药;在你准备做CT前,帮你评估辐射风险与收益。
麻省总医院的结论很清晰:AI不是要取代医生,而是帮医生少犯错、多思考。它的价值,不在于“答对题”,而在于“让医生问出更好的问题”。
下次再看到“AI诊断准确率95%”的新闻,请记住:真正的医学,从不在标准答案里,而在那些未说出口的犹豫、未完成的检查、未被倾听的焦虑中。