最新消息:关注人工智能 AI赋能新媒体运营

阿里开源LOGOS模型:聚焦科研提效新范式

科技资讯 admin 浏览

阿里与人大开源科学基础模型 LOGOS,用统一词表打通多领域数据

6月18日,阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源多领域科学生成基础模型 LOGOS。该模型尝试为不同科学分支建立一套通用的底层表达规则。

过去,蛋白质、小分子和复杂材料在人工智能系统中属于结构迥异的数据孤岛。研究人员通常需要依赖复杂的3D坐标或专门设计的几何神经网络来处理这些数据,计算成本高,模型也难以跨环节复用。LOGOS 改变了这一路径。它设计了一套共享词表,将蛋白质、抗体、小分子及 MOF 材料等异构对象编码为统一的离散 Token 序列。模型不再依赖昂贵的3D空间信息,而是通过序列预测的方式直接构建复杂的3D空间互作规律。不同学科的数据由此在底层实现知识共享。

LOGOS模型架构示意图

在参数效率上,LOGOS-1B 版本仅用1/56的参数量,就在多项代表性科学任务中实现了对微软 NatureLM 的超越。该模型同时解决了预训练与下游任务之间的目标偏差问题。研究人员无需进行繁琐的微调适配,即可直接调用其生成能力,开发门槛随之降低。

LOGOS模型性能对比图

目前,LOGOS 的预训练语料库涵盖7类模态,数据总量达到44.87B tokens。项目团队已将模型权重、推理代码及技术报告全面开源。开发者可通过 HuggingFace 或 GitHub 获取相关资源。

这一成果为科研自动化提供了新的工具,也为多模态科学大模型的开发提供了技术参考。随着 LOGOS 的开源,跨学科科学数据的统一处理效率有望得到提升。