清华AIR联合水木分子开源BioMedGPT-Mol：首个通用化学大模型

国产大模型破局药物研发：BioMedGPT-Mol 开源，让分子“听得懂人话”

过去，药物研发像在迷宫里盲走——每年投入上千亿美金，平均耗时10年，成功率不到10%。而今天，一个来自中国的开源模型，正在悄悄改变这个局面。

近日，清华大学智能产业研究院（AIR）联合国内AI制药公司水木分子，正式开源了 BioMedGPT-Mol —— 一个专门为化学分子设计的“语言模型”。它不讲空话，不玩概念，而是真正“读懂”了分子的结构：碳链怎么走、氢键怎么搭、极性怎么分布。就像你读一句中文能理解情绪，它看一个分子式就能预测它的溶解性、毒性、是否容易成药。

这不是又一个“AI+医药”的宣传噱头。BioMedGPT-Mol 的底层架构，是在超过10亿个分子结构上训练出来的。它能干的事，是实打实的：

在几秒内筛选出上百万个候选分子，找出最有希望的几十个——过去靠人工筛，要几个月。
预测新分子的药代动力学性质（ADME），准确率比传统方法高30%以上。
根据目标蛋白的结构，生成全新、可合成、有活性的分子，而不是简单修改已有结构。

更关键的是，它是开源的。不需要买昂贵的商业软件，不需要申请权限，任何高校实验室、初创公司、甚至独立研究员，都能直接下载、微调、用在自己的项目里。GitHub 上的代码、预训练权重、使用教程，一应俱全。不少海外研究者已经留言：“终于有个不收费、能跑起来的分子模型了。”

为什么这次不一样？

过去几年，AI制药公司动不动就宣布“发现新药候选分子”，但多数是实验室里的漂亮数据，离临床还差十万八千里。问题出在哪？——模型太“窄”。一个模型只擅长预测溶解度，另一个只懂生成结构，数据孤岛严重，换一个任务就得从头训练。

BioMedGPT-Mol 的突破，是第一次把分子当成“语言”来处理。它把原子当成字，键当成标点，分子结构当成句子，用类似GPT的方式统一建模。这意味着，你训练一次，就能在多个任务上用——筛选、生成、性质预测、毒性评估，全都能做。这就像你学了英语，不仅能写作文，还能翻译法律文件、写诗、聊天气。

清华大学AIR团队在AI for Science领域深耕多年，曾主导多个国家级AI科学项目；水木分子则是国内少数真正把AI模型落地到药物发现流程中的公司，其团队有来自辉瑞、药明康德的资深科学家。这次合作，不是发篇论文就完事，而是把工业级的训练数据、工程经验、评估标准，全打包开源了。

谁在用？真实案例已经出现

开源不到两周，已有多个团队公开分享使用成果：

中科院上海药物所用它快速筛选出一类新型抗耐药菌分子，实验验证活性提升5倍。
一家杭州初创公司基于它生成了3个全新骨架的激酶抑制剂，已进入专利申请阶段。
美国加州大学伯克利分校的课题组，用它辅助设计RNA靶向小分子，原本要6个月的虚拟筛选，现在3天出结果。

这不是科幻。这是正在发生的科研效率革命。

未来，不是AI取代科学家，而是让科学家更自由

药物研发最贵的，不是设备，是时间。一个博士生花一年时间做结构优化，可能只换来一个勉强合格的分子。而有了BioMedGPT-Mol，他们可以把重复劳动交给模型，把精力留给真正需要创造力的环节：设计实验、解读数据、提出新假说。

我们不需要“AI发现新药”，我们需要的是——让科学家少走弯路，少熬夜，少被经费卡脖子。

BioMedGPT-Mol 的开源，不是终点，而是一个起点。它证明了：中国在AI for Science的底层基建上，已经能做出全球级的工具。而真正的突破，将来自每一个下载它、修改它、用它做出新发现的研究者。

下载地址：https://github.com/AIR-THU/BioMedGPT-Mol

BioMedGPT-Mol 化学分子大模型药物研发AI 分子表征

CB科技站

清华AIR联合水木分子开源BioMedGPT-Mol：首个通用化学大模型

国产大模型破局药物研发：BioMedGPT-Mol 开源，让分子“听得懂人话”

为什么这次不一样？

谁在用？真实案例已经出现

未来，不是AI取代科学家，而是让科学家更自由

与本文相关的文章