阿里开源LOGOS模型：聚焦科研提效新范式

阿里与人大开源科学基础模型 LOGOS，用统一词表打通多领域数据

6月18日，阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源多领域科学生成基础模型 LOGOS。该模型尝试为不同科学分支建立一套通用的底层表达规则。

过去，蛋白质、小分子和复杂材料在人工智能系统中属于结构迥异的数据孤岛。研究人员通常需要依赖复杂的3D坐标或专门设计的几何神经网络来处理这些数据，计算成本高，模型也难以跨环节复用。LOGOS 改变了这一路径。它设计了一套共享词表，将蛋白质、抗体、小分子及 MOF 材料等异构对象编码为统一的离散 Token 序列。模型不再依赖昂贵的3D空间信息，而是通过序列预测的方式直接构建复杂的3D空间互作规律。不同学科的数据由此在底层实现知识共享。

在参数效率上，LOGOS-1B 版本仅用1/56的参数量，就在多项代表性科学任务中实现了对微软 NatureLM 的超越。该模型同时解决了预训练与下游任务之间的目标偏差问题。研究人员无需进行繁琐的微调适配，即可直接调用其生成能力，开发门槛随之降低。

目前，LOGOS 的预训练语料库涵盖7类模态，数据总量达到44.87B tokens。项目团队已将模型权重、推理代码及技术报告全面开源。开发者可通过 HuggingFace 或 GitHub 获取相关资源。

这一成果为科研自动化提供了新的工具，也为多模态科学大模型的开发提供了技术参考。随着 LOGOS 的开源，跨学科科学数据的统一处理效率有望得到提升。

人大 logos 科学基础模型 ai驱动科研阿里

CB科技站

阿里开源LOGOS模型：聚焦科研提效新范式

阿里与人大开源科学基础模型 LOGOS，用统一词表打通多领域数据

与本文相关的文章