Science 最新封面:AI 大模型 Evo 解码生命密码,基因组学进入新时代
破解基因组的奥秘一直是生物科学的前沿挑战,如何让人工智能(AI)读懂 DNA 的复杂信息,并用它来设计和操控生命的'程序代码'?
通过深度学习算法,AI 不仅能识别基因组中细微的模式,还可以生成完整的基因序列,为基因编辑和新药开发提供前所未有的支持。

近日,斯坦福大学化学工程助理教授 Brian L. Hie 团队以封面文章的形式在权威科学期刊 Science 上发表了一项开创性研究成果 —— Evo,一个能够解码和设计 DNA、RNA 和蛋白质序列的大规模基因组基础模型。

据介绍,Evo 模型基于 3000 亿 DNA token 训练,能够在长序列的单碱基分辨率下进行预测和生成,尤其在跨物种的基因预测上取得了超越特定模型的表现。
Evo 模型专为捕捉生物学中两个核心方面:中心法则的多模态性和进化的多尺度特性。中心法则揭示了 DNA、RNA 和蛋白质的统一信息流,而进化跨越了分子、途径、细胞到生物体的各个层级。
研究发现,Evo 生成的多基因系统成功率接近 50%,生成的 CRISPR-Cas9 蛋白也经实验验证具有功能活性。此外,在全基因组生成方面,Evo 生成的序列在基因组组织、编码密度和天然基因组方面显示出高度的相似性。
Evo 不仅能够预测基因突变的效应,还具备生成完整基因组序列的能力,在基因组设计、药物开发和生物工程领域具有广阔的潜力。
美国 Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中评论道:'Evo 的意义在于,首次从进化多样性中提取出 DNA 的'语法规则',将基因组信息的建模提升到一个新的层次。'
Evo:解码生命指令的基因组基础模型
基因组序列的演化过程展现了生物体对环境的适应与选择,随着基因组测序技术的发展,人类逐步掌握了绘制和解析基因组多样性的能力,从而揭示了基因在健康、疾病和生物适应性中的关键角色。
DNA 作为遗传信息的载体,通过四种碱基(A、T、G、C)序列记录了生物体的生命指令。
Theodoris 在评论文章中指出:'DNA 尽管只有四种碱基的'词汇',却像一种语言,编码了调控细胞各层级活动的基础信息,从 DNA、RNA 到蛋白质。这些信息在指导细胞功能的同时,代代相传,驱动生物体的进化。'
Theodoris 指出,正是这种进化多样性中的 DNA 序列对比,赋予了大型语言模型学习 DNA 语法的潜力,而这一能力是此前基于单一基因组的模型难以掌握的。
然而,建模基因组信息仍面临显著挑战。当前的机器学习模型多聚焦于特定分子(如蛋白质、RNA),在长 DNA 序列的生成与预测上存在局限性,尤其是在涉及基因调控和 CRISPR 免疫等复杂系统的多分子、多尺度应用中。例如,基于 Transformer 的 DNA 模型受限于较短的上下文长度,多采用将核苷酸聚合成语言模型基本单元的方法,牺牲了单碱基分辨率。
为应对这些挑战,研究团队借鉴自然语言处理模型在长文本预测与生成中的成功案例,开发了 Evo 模型。
Evo 采用了混合模型架构 StripedHyena,巧妙地将数据控制的卷积算子与多头注意力机制相结合,克服了传统 Transformer 架构在长序列 DNA 处理中的计算成本和分辨率问题,实现了在单碱基分辨率下对长达 131072 个 token 的上下文长度的高效处理,极大提升了基因组分析的精确性和效率。

图|拥有 70 亿个参数的基因组基础模型 Evo,可学习从单个核苷酸到整个基因组的生物复杂性。
Evo 模型使用 OpenGenome 大型数据集进行训练,该数据集包含超过 80000 个细菌和古菌基因组以及数百万个预测的噬菌体和质粒序列,涵盖 3000 亿个核苷酸 token。训练分两个阶段,先使用 8192 个 token 上下文长度,再扩展到 131072 个 token 上下文长度,参数规模达 70 亿。



