大模型之家讯 近日,首个基于统一“科学语法”的多领域科学生成基础模型LOGOS正式开源。该项目由ATH-Token Foundry联合中国人民大学高瓴人工智能学院共同推出,旨在让蛋白质、小分子、材料和化学反应等科学对象被一个模型统一建模和生成。
LOGOS的核心创新在于设计了一套共享词表,将蛋白质、小分子、材料等异构对象全部编码为统一离散Token序列,并通过“文字描述法”将3D空间接触模式语法化为离散Token,无需输入3D坐标即可理解复杂空间互作规律。
在六大代表性科学任务上,LOGOS以纯序列建模范式一致性地匹配或超越了领域专用方法。其中,口袋条件配体生成首次以纯序列方法超越3D扩散模型;逆合成预测Top-1准确率达74.8%;口袋位点识别仅用氨基酸序列即可预测结合位点。LOGOS-1B仅用1/56的参数量就在多个任务上超越NatureLM。

LOGOS构建了涵盖7类模态、总计44.87B tokens的预训练语料库,包括蛋白质、抗体、小分子、化学反应、MOF材料、蛋白质口袋及蛋白口袋-配体复合物。通过继承LLM预训练权重,科学模型可直接复用vLLM推理加速等成熟基建。
目前LOGOS已完整开源模型权重、推理代码与技术报告,可在HuggingFace、GitHub和arXiv上获取。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/16333