阿里云生物基础大模型登上Nature子刊!
作者:阿里云 更新时间:2025-06-20 16:33:40 共4人关注

19日,阿里云AI for Science研究成果生物大基础大模型LucaOne登上国际顶级期刊《Nature Machine Intelligence》。

LucaOne生物基础大模型,是业界首个基于DNA、RNA和蛋白质等生命科学领域最主要的数据进行混合训练的生物大模型。
该模型的训练数据涵盖了超16万个物种12亿条核酸序列和6亿条蛋白序列,同时在训练时还引入了生物领域内基础的标签信息,让模型学习到丰富的生物信息。
因此,LucaOne生物基础大模型不仅可以挖掘核酸、蛋白质的内部特征,还可识别核酸与蛋白质之间的联系,帮助研究人员探索更多生物系统的内在逻辑与规则。
《Nature Machine Intelligence》对此表示:
该研究展示了对分子生物学中心法则的全新理解,极大地增强了研究人员对生物信息学分析的能力,可以帮助人类探索分子生物学的未知领域。

在模型结构上,阿里云研究团队采用Transformer-Encoder架构,在自监督学习的基础上,设计了8个不同级别的半监督学习任务,有效增强模型的学习能力。
实验结果显示,在中心法则验证(CentralDogma)、物种Genus分类(GenusTax)、蛋白质位置(ProtLoc)、蛋白质稳定性(ProtStab)、非编码RNA的类型(ncRNAFam)、流感病毒预测(InfA)等8个下游任务验证中,LucaOne的表现均领先于现有的生物大模型。
目前,LucaOne的模型代码、训练代码、推理代码等已全面开源,科研人员可基于该模型进行二次训练、垂直领域生物模型构建、Embedding推理、Embedding-based分析、Embedding-based下游模型构建等。目前全球已有10多家公司和团队使用该模型。
过去几年,阿里云积极与国内高校和研究机构展开合作,在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne(NMI 2025)、RNA病毒发现-LucaProt(Cell 2024)、磷循环蛋白家族识别-LucaPCycle(NC 2025)等研究成果。
《Nature Machine Intelligence》是Nature于2019年创立的期刊,收录方向覆盖计算生物学、模式识别和计算机视觉等多个领域,期刊影响因子一直位居行业前列,是业界公认的人工智能和机器学习领域的国际顶级期刊。
论文地址:https://www.nature.com/articles/s42256-025-01044-4
开源地址:https://github.com/LucaOne/LucaOne
点击阅读原文,获取论文原文!