Science 封面：AI 大模型 Evo 解码生命密码，基因组学进入新时代

斯坦福大学团队在 Science 发表 Evo 基因组基础模型，基于 3000 亿 DNA token 训练，采用 StripedHyena 架构实现单碱基分辨率下的长序列预测与生成。Evo 在跨物种基因突变预测、CRISPR-Cas9 及转座子系统生成方面表现优异，但在人类蛋白质预测及长序列连贯性上仍有局限。未来计划纳入真核基因组并加强安全伦理监管，推动基因组设计向全基因组规模发展。

数字游民发布于 2025/2/7更新于 2026/7/1438 浏览

Science 最新封面：AI 大模型 Evo 解码生命密码，基因组学进入新时代

破解基因组的奥秘一直是生物科学的前沿挑战，如何让人工智能（AI）读懂 DNA 的复杂信息，并用它来设计和操控生命的'程序代码'？

通过深度学习算法，AI 不仅能识别基因组中细微的模式，还可以生成完整的基因序列，为基因编辑和新药开发提供前所未有的支持。

Science 最新封面展示 Evo 模型

近日，斯坦福大学化学工程助理教授 Brian L. Hie 团队以封面文章的形式在权威科学期刊 Science 上发表了一项开创性研究成果 —— Evo，一个能够解码和设计 DNA、RNA 和蛋白质序列的大规模基因组基础模型。

Evo 模型基于 3000 亿 DNA token 训练

据介绍，Evo 模型基于 3000 亿 DNA token 训练，能够在长序列的单碱基分辨率下进行预测和生成，尤其在跨物种的基因预测上取得了超越特定模型的表现。

Evo 模型专为捕捉生物学中两个核心方面：中心法则的多模态性和进化的多尺度特性。中心法则揭示了 DNA、RNA 和蛋白质的统一信息流，而进化跨越了分子、途径、细胞到生物体的各个层级。

研究发现，Evo 生成的多基因系统成功率接近 50%，生成的 CRISPR-Cas9 蛋白也经实验验证具有功能活性。此外，在全基因组生成方面，Evo 生成的序列在基因组组织、编码密度和天然基因组方面显示出高度的相似性。

Evo 不仅能够预测基因突变的效应，还具备生成完整基因组序列的能力，在基因组设计、药物开发和生物工程领域具有广阔的潜力。

美国 Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中评论道：'Evo 的意义在于，首次从进化多样性中提取出 DNA 的'语法规则'，将基因组信息的建模提升到一个新的层次。'

Evo：解码生命指令的基因组基础模型

基因组序列的演化过程展现了生物体对环境的适应与选择，随着基因组测序技术的发展，人类逐步掌握了绘制和解析基因组多样性的能力，从而揭示了基因在健康、疾病和生物适应性中的关键角色。

DNA 作为遗传信息的载体，通过四种碱基（A、T、G、C）序列记录了生物体的生命指令。

Theodoris 在评论文章中指出：'DNA 尽管只有四种碱基的'词汇'，却像一种语言，编码了调控细胞各层级活动的基础信息，从 DNA、RNA 到蛋白质。这些信息在指导细胞功能的同时，代代相传，驱动生物体的进化。'

Theodoris 指出，正是这种进化多样性中的 DNA 序列对比，赋予了大型语言模型学习 DNA 语法的潜力，而这一能力是此前基于单一基因组的模型难以掌握的。

然而，建模基因组信息仍面临显著挑战。当前的机器学习模型多聚焦于特定分子（如蛋白质、RNA），在长 DNA 序列的生成与预测上存在局限性，尤其是在涉及基因调控和 CRISPR 免疫等复杂系统的多分子、多尺度应用中。例如，基于 Transformer 的 DNA 模型受限于较短的上下文长度，多采用将核苷酸聚合成语言模型基本单元的方法，牺牲了单碱基分辨率。

为应对这些挑战，研究团队借鉴自然语言处理模型在长文本预测与生成中的成功案例，开发了 Evo 模型。

Evo 采用了混合模型架构 StripedHyena，巧妙地将数据控制的卷积算子与多头注意力机制相结合，克服了传统 Transformer 架构在长序列 DNA 处理中的计算成本和分辨率问题，实现了在单碱基分辨率下对长达 131072 个 token 的上下文长度的高效处理，极大提升了基因组分析的精确性和效率。

Evo 拥有 70 亿个参数的基因组基础模型

图｜拥有 70 亿个参数的基因组基础模型 Evo，可学习从单个核苷酸到整个基因组的生物复杂性。

Evo 模型使用 OpenGenome 大型数据集进行训练，该数据集包含超过 80000 个细菌和古菌基因组以及数百万个预测的噬菌体和质粒序列，涵盖 3000 亿个核苷酸 token。训练分两个阶段，先使用 8192 个 token 上下文长度，再扩展到 131072 个 token 上下文长度，参数规模达 70 亿。

Science 封面：AI 大模型 Evo 解码生命密码，基因组学进入新时代

Science 最新封面：AI 大模型 Evo 解码生命密码，基因组学进入新时代

Evo：解码生命指令的基因组基础模型

更多推荐文章

相关免费在线工具

多模态预测：跨物种基因突变预测的优异表现

生成式设计：功能性 CRISPR-Cas9 与转座子系统的创建

不足和展望

Evo 模型的安全与伦理考量

更多推荐文章

相关免费在线工具

Science 封面：AI 大模型 Evo 解码生命密码，基因组学进入新时代

Science 最新封面：AI 大模型 Evo 解码生命密码，基因组学进入新时代

Evo：解码生命指令的基因组基础模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

多模态预测：跨物种基因突变预测的优异表现

生成式设计：功能性 CRISPR-Cas9 与转座子系统的创建

不足和展望

Evo 模型的安全与伦理考量

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具