最新消息:关注人工智能 AI赋能新媒体运营

百川智能发布Baichuan-M3-235B医疗大模型

科技资讯 admin 浏览

医疗AI迎来重大突破:百川智能发布全球首个临床决策级大模型

在医疗AI领域,“建议尽快就医”曾是无数模型的“安全答案”——不是因为聪明,而是因为不敢错。面对生死攸关的诊断场景,大模型一旦“幻觉”胡言,轻则误导患者,重则延误治疗。因此,过去几年,多数厂商选择保守策略:回避深度判断,只做表面应答。但这一局面,正在被彻底打破。

百川智能今日正式开源新一代医疗增强大模型——Baichuan-M3-235B,这是全球首个在真实临床决策流程中实现端到端建模、幻觉率显著低于GPT-5.2、并公开所有评测数据的医疗大模型。它不再只是“回答问题”,而是真正“像医生一样思考”。

不是问答机器人,而是临床决策助手

传统医疗AI大多停留在“患者问:我头疼怎么办?模型答:建议就医”层面。Baichuan-M3-235B则完全不同——它被训练成一个能完整模拟医生问诊流程的智能体。

其核心技术之一是SPAR分段管道强化学习(Segmented Pipeline Auditing Reinforcement)。该方法首次将临床决策拆解为四个可量化、可评估的阶段:

  • 病史采集:模型能主动追问症状细节、持续时间、诱因,而非被动等待用户补充
  • 鉴别诊断:能列出3–5种可能性并按概率排序,而非只说“可能是感冒”
  • 实验室检查建议:知道该建议血常规、CRP、心电图还是CT,且能说明每项检查的临床意义
  • 最终诊断与处置:给出明确诊断结论,并附带随访建议、用药禁忌、急诊指征

每个阶段都设有独立奖励机制,模型在训练中不断优化“决策链”的完整性,而非单点准确率。这意味着,它能在多轮对话中保持逻辑连贯,像一位经验丰富的全科医生那样,一步步引导患者完成诊断闭环。

幻觉率比GPT-5.2还低?事实感知RL实锤

医疗AI最大的恐惧,是“一本正经地胡说八道”。为解决这一顽疾,百川智能创新性地引入Fact-Aware RL(事实感知强化学习)——在训练过程中,模型每输出一句话,都会被一个内置的“医学裁判”实时核对。

这个“裁判”不是简单关键词匹配,而是接入了权威医学知识库,包括:

  • UpToDate临床决策支持系统
  • 美国国立医学图书馆(NLM)的MEDLINE文献
  • 中国《临床诊疗指南》(中华医学会版)
  • 国际疾病分类ICD-11标准

模型在生成回答时,必须通过事实一致性验证。若检测到潜在错误或模糊表述,系统会自动触发修正机制,甚至主动拒绝输出。

根据百川官方公布的独立测试数据,在不依赖外部工具的前提下,Baichuan-M3-235B的幻觉率仅为6.8%,而GPT-5.2在相同测试集上的幻觉率为11.3%。这意味着,它在没有联网查证的情况下,也比行业顶尖模型更“靠谱”。

权威评测碾压GPT-5.2,唯一全维度第一

真正的实力,要看硬指标。在医疗AI领域最权威的评测基准——HealthBench上,Baichuan-M3-235B以44.4分的成绩登顶,比上一代M2模型提升28个百分点,首次超越OpenAI最新发布的GPT-5.2(42.1分)。

HealthBench由来自60个国家的262名执业医师联合构建,包含5000个真实临床对话样本,涵盖儿科、内科、急诊、妇科等多科室复杂病例,是目前全球最贴近临床实践的评测标准。

更惊人的是在SCAN-bench端到端临床决策评测中的表现——这是唯一一个模拟完整诊疗流程(从患者主诉→问诊→检查建议→最终诊断)的综合测试。Baichuan-M3-235B成为唯一一个在三大核心维度全部排名第一的模型:

  • 临床问诊能力:89.2分(领先第二名12.4分)
  • 实验室检查建议合理性:87.5分
  • 最终诊断准确率:85.6分

在一项典型病例中,模型面对一位45岁男性“胸痛伴出汗”主诉,不仅准确识别出急性心肌梗死可能性,还主动建议“立即做心电图+肌钙蛋白检测”,并提醒“若血压下降或意识模糊,需立即转运急诊”,完全符合《中国急性胸痛急诊诊疗专家共识》的规范流程。

不是实验室玩具,而是可落地的临床工具

“我们不是在做一个能背医学教科书的聊天机器人,”百川智能CTO在发布会上强调,“我们是在训练一个能在基层医院、远程问诊、急诊预检中真正帮上忙的智能助手。”

目前,Baichuan-M3-235B已在国内多家三甲医院的互联网诊疗平台开展试点。一位参与测试的三甲医院急诊科主任表示:“它能帮我们快速筛查高危胸痛患者,减少漏诊。虽然不能替代医生,但在人手紧张时,它能成为第一道‘安全网’。”

该模型已全面开源,支持中文、英文双语输入,适配主流推理框架(vLLM、Text Generation Inference),并提供完整的医疗问答微调模板。开发者可基于此模型构建:

  • 基层医疗机构的智能分诊系统
  • 远程医疗平台的辅助问诊模块
  • 医学院的临床思维训练AI导师
  • 健康管理APP中的个性化健康评估引擎

开放获取,推动医疗AI普惠化

与其他闭源医疗大模型不同,百川智能选择将Baichuan-M3-235B完整开源,包括模型权重、训练代码、评测数据集和医疗知识增强模块。此举旨在打破大厂垄断,让真正有医疗需求的机构、研究者和开发者都能低成本接入。

项目地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

这不是一场技术秀,而是一次医疗AI从“能说”到“能用”的关键跃迁。当AI不再回避责任,而是主动承担判断,我们离“人人拥有专属AI医生”的未来,又近了一步。