美国医学期刊研究显示，AI早期诊断错误率超过80%

美国医学期刊《JAMA Network Open》本周发布的一项研究指出，现有的大型语言模型（Large Language Models, LLMs）在临床推理中仍存在明显局限，尤其是在早期鉴别诊断阶段，错误率普遍超过80%。

JAMA Network Open是美国医学会（American Medical Association，AMA）旗下的开放获取医学期刊，采用同行评审机制，在医学界具有较高权威性。不过，本次研究属于基于标准化病例模拟（clinical vignettes）的横断面评估，主要用于测试AI模型在临床推理流程中的表现，并非基于真实患者的临床试验结果，仍需进一步实证验证其在实际医疗场景中的适用性。

该研究评估了21款主流大型语言模型，包括GPT-5、Claude 4.5 Opus、Gemini 3系列与Grok 4，通过29个标准化临床案例，模拟医疗决策流程，涵盖鉴别诊断、检查选择、最终诊断、治疗管理及其他临床推理五个阶段。

结果显示，各模型整体表现存在差异，但在不同诊疗阶段呈现明显不均衡。研究发现，AI在“最终诊断”与“治疗管理”环节的准确率相对较高，而在“检查选择”及其他临床推理环节居中，但在最早期的“鉴别诊断”阶段表现最差，错误率普遍超过80%，成为各模型的共同短板。

进一步分析指出，AI更擅长在信息较为完整的情况下给出答案，但在信息不足、需要逐步推理的早期阶段，容易过早收敛至单一结论。相比之下，临床医生通常会在初期保留多种可能性，并随着检查结果和数据积累逐步修正判断。研究认为，这种在不确定情境下进行推理的能力不足，是当前AI难以直接应用于临床决策的关键限制。

AI 早期诊断医学期刊错误率

CB科技站

美国医学期刊研究显示，AI早期诊断错误率超过80%

与本文相关的文章