美国医学期刊《JAMA Network Open》本周发布的一项研究指出,现有的大型语言模型(Large Language Models, LLMs)在临床推理中仍存在明显局限,尤其是在早期鉴别诊断阶段,错误率普遍超过80%。
JAMA Network Open是美国医学会(American Medical Association,AMA)旗下的开放获取医学期刊,采用同行评审机制,在医学界具有较高权威性。不过,本次研究属于基于标准化病例模拟(clinical vignettes)的横断面评估,主要用于测试AI模型在临床推理流程中的表现,并非基于真实患者的临床试验结果,仍需进一步实证验证其在实际医疗场景中的适用性。
该研究评估了21款主流大型语言模型,包括GPT-5、Claude 4.5 Opus、Gemini 3系列与Grok 4,通过29个标准化临床案例,模拟医疗决策流程,涵盖鉴别诊断、检查选择、最终诊断、治疗管理及其他临床推理五个阶段。
结果显示,各模型整体表现存在差异,但在不同诊疗阶段呈现明显不均衡。研究发现,AI在“最终诊断”与“治疗管理”环节的准确率相对较高,而在“检查选择”及其他临床推理环节居中,但在最早期的“鉴别诊断”阶段表现最差,错误率普遍超过80%,成为各模型的共同短板。
进一步分析指出,AI更擅长在信息较为完整的情况下给出答案,但在信息不足、需要逐步推理的早期阶段,容易过早收敛至单一结论。相比之下,临床医生通常会在初期保留多种可能性,并随着检查结果和数据积累逐步修正判断。研究认为,这种在不确定情境下进行推理的能力不足,是当前AI难以直接应用于临床决策的关键限制。