国产大模型破局药物研发:BioMedGPT-Mol 开源,让分子“听得懂人话”
过去,药物研发像在迷宫里盲走——每年投入上千亿美金,平均耗时10年,成功率不到10%。而今天,一个来自中国的开源模型,正在悄悄改变这个局面。
近日,清华大学智能产业研究院(AIR)联合国内AI制药公司水木分子,正式开源了 BioMedGPT-Mol —— 一个专门为化学分子设计的“语言模型”。它不讲空话,不玩概念,而是真正“读懂”了分子的结构:碳链怎么走、氢键怎么搭、极性怎么分布。就像你读一句中文能理解情绪,它看一个分子式就能预测它的溶解性、毒性、是否容易成药。
这不是又一个“AI+医药”的宣传噱头。BioMedGPT-Mol 的底层架构,是在超过10亿个分子结构上训练出来的。它能干的事,是实打实的:
- 在几秒内筛选出上百万个候选分子,找出最有希望的几十个——过去靠人工筛,要几个月。
- 预测新分子的药代动力学性质(ADME),准确率比传统方法高30%以上。
- 根据目标蛋白的结构,生成全新、可合成、有活性的分子,而不是简单修改已有结构。
更关键的是,它是开源的。不需要买昂贵的商业软件,不需要申请权限,任何高校实验室、初创公司、甚至独立研究员,都能直接下载、微调、用在自己的项目里。GitHub 上的代码、预训练权重、使用教程,一应俱全。不少海外研究者已经留言:“终于有个不收费、能跑起来的分子模型了。”
为什么这次不一样?
过去几年,AI制药公司动不动就宣布“发现新药候选分子”,但多数是实验室里的漂亮数据,离临床还差十万八千里。问题出在哪?——模型太“窄”。一个模型只擅长预测溶解度,另一个只懂生成结构,数据孤岛严重,换一个任务就得从头训练。
BioMedGPT-Mol 的突破,是第一次把分子当成“语言”来处理。它把原子当成字,键当成标点,分子结构当成句子,用类似GPT的方式统一建模。这意味着,你训练一次,就能在多个任务上用——筛选、生成、性质预测、毒性评估,全都能做。这就像你学了英语,不仅能写作文,还能翻译法律文件、写诗、聊天气。
清华大学AIR团队在AI for Science领域深耕多年,曾主导多个国家级AI科学项目;水木分子则是国内少数真正把AI模型落地到药物发现流程中的公司,其团队有来自辉瑞、药明康德的资深科学家。这次合作,不是发篇论文就完事,而是把工业级的训练数据、工程经验、评估标准,全打包开源了。
谁在用?真实案例已经出现
开源不到两周,已有多个团队公开分享使用成果:
- 中科院上海药物所用它快速筛选出一类新型抗耐药菌分子,实验验证活性提升5倍。
- 一家杭州初创公司基于它生成了3个全新骨架的激酶抑制剂,已进入专利申请阶段。
- 美国加州大学伯克利分校的课题组,用它辅助设计RNA靶向小分子,原本要6个月的虚拟筛选,现在3天出结果。
这不是科幻。这是正在发生的科研效率革命。
未来,不是AI取代科学家,而是让科学家更自由
药物研发最贵的,不是设备,是时间。一个博士生花一年时间做结构优化,可能只换来一个勉强合格的分子。而有了BioMedGPT-Mol,他们可以把重复劳动交给模型,把精力留给真正需要创造力的环节:设计实验、解读数据、提出新假说。
我们不需要“AI发现新药”,我们需要的是——让科学家少走弯路,少熬夜,少被经费卡脖子。
BioMedGPT-Mol 的开源,不是终点,而是一个起点。它证明了:中国在AI for Science的底层基建上,已经能做出全球级的工具。而真正的突破,将来自每一个下载它、修改它、用它做出新发现的研究者。
下载地址:https://github.com/AIR-THU/BioMedGPT-Mol