BoltzGen：MIT 开源生成式 AI 模型用于大分子 Binder 设计与安装

BoltzGen 是麻省理工学院 Jameel Clinic 推出的开源生成式 AI 模型，基于扩散模型与 Transformer 架构，支持原子级别的大分子（蛋白质、RNA、DNA、小分子）结合剂设计。该模型统一了结构预测与设计任务，采用几何连续表示替代离散残基标签，通过灵活的设计规范语言控制共价键、结合位点等约束。实验验证显示其在多个疾病靶点上实现了纳摩尔级亲和力。 BoltzGen 的开发背景、工作原理、实验结果以及详细的安装配置与运行指南，涵盖环境搭建、YAML 设计规范编写及命令行参数说明，适用于生物计算与药物发现领域的开发者。

字节跳动发布于 2026/3/30更新于 2026/7/2156 浏览

BoltzGen：安装与使用

项目地址：https://github.com/HannesStark/boltzgen

BoltzGen 开发背景

文章配图

2024 年，麻省理工学院 Jameel Clinic 研究团队推出了开源的 Boltz-1 模型。Boltz-1 采用扩散模型与 Transformer 架构相结合的生成体系，能够在原子级别预测蛋白质、RNA、DNA 及小分子复合物结构。其灵活的条件化接口，让模型能针对特定结合位点或分子构象进行精准建模，极大拓宽了其产业应用范围，从新型抗体设计、酶工程优化，到小分子配体筛选，都能在 Boltz-1 框架下实现端到端预测，大大降低了生物计算的进入门槛。

2025 年，麻省理工学院 Jameel Clinic 团队在 Boltz-1 的基础上推出了 Boltz-2 模型。将蛋白折叠预测精度推至新高，被称为「结构生物学的 GPT-4」。相比前作，Boltz-2 在生成精度和计算效率上实现了显著提升，同时引入了多模态条件化输入，使其能够整合序列信息、实验数据及化学性质，实现更为精细的分子设计。在全球生物计算与药物发现迈向「全场景生成」的浪潮中，Boltz-2 的出现进一步填补了学术界与产业界对高可用、可扩展、可商用工具的需求。Boltz-2 继承并优化了扩散模型与 Transformer 架构的混合生成体系，其核心 Trunk 模块能够一次性提取蛋白质或核酸复合物的多层次表示，而 Diffusion 模块则在此基础上进行结构生成和优化。在此基础上，Boltz-2 引入了结合亲和力预测，超越了结构预测的范畴，能够捕捉分子间识别和相互作用的紧密程度。通过在同一框架内耦合结构预测和结合预测，Boltz-2 加深了人们对分子相互作用的理解，并为生成式设计奠定了基础。

2025 年 10 月，麻省理工学院研究团队推出 BoltzGen 开源 AI 模型，该模型突破了传统药物设计的局限，能够针对核酸、小分子及有序无序蛋白质等"任何"靶点进行通用治疗设计，涵盖纳米抗体、微型结合体等多元模态。通过多个湿实验室验证，在 9 个疾病相关靶点中实现 6 个靶点的纳摩尔级结合亲和力，为解决"不可药物靶点"难题提供新路径。针对传统的蛋白设计依赖物理计算、计算成本高、设计空间受限，且难以同时处理多模态目标的局限，BoltzGen 以几何连续表示代替传统离散残基标签，实现蛋白折叠与结合体设计的联合训练，并构建了灵活的设计规范语言，实现了跨分子类型的可控生成，提高了模型的设计效率、通用性和可解释性。

在药物研发和生物分子工程领域，「De-novo 蛋白设计（De-novo Binder Design）」是药物研发自动化的核心方法之一。研究人员能够借助计算模拟与深度学习，在特定靶点上生成具有结合能力的肽链或蛋白结构，抗体、纳米抗体、环肽等新型药物形态的开发也因此成为可能。然而，传统的蛋白设计策略多依赖基于分子动力学模拟等物理计算及序列优化算法。虽然在单个体系中可达高精度，但计算成本高、设计空间受限，且难以同时处理蛋白质小分子和 RNA 等多模态目标。而目前的深度生成模型一定程度上提高了生成速度，却普遍缺乏「原子级别」的结构推理能力，针对特定类别分子进行优化，通用性有限；同时，其模型评估常依赖训练集中已有相似复合物，难以验证其对「未见靶点」的泛化能力，缺乏可控的生成机制与灵活的结构约束表达，存在设计效率和可解释性局限。针对这一问题 BoltzGen，不仅以几何连续表示代替传统离散残基标签，在单一体系中实现蛋白折叠与结合体设计的联合训练，而且构建了灵活的「设计规范语言」，实现了跨分子类型的可控生成。

工作原理

BoltzGen 流程采用单一的全原子生成模型，将设计和结构预测统一起来。基于几何结构的残基类型表示方法使得同时进行这两项任务的可扩展训练成为可能。因此，与以往任何设计模型不同，BoltzGen 的性能可与最先进的折叠模型相媲美。BoltzGen 基于结构的靶标 - 结合剂相互作用推理支持设计针对新型靶标的高亲和力结合剂，这些靶标与训练过程中观察到的复合物无关。此外，它还提供了一种设计规范语言，该语言为各种约束（包括共价键、结构基团、结合位点、二级结构和设计掩码）提供了一个富有表现力的接口，这些约束在推理过程中引导扩散过程朝着特定的设计目标发展。这种语言具有通用性，允许在单次生成过程中添加多个约束，从而涵盖广泛的实验设计目标。除了核心扩散模型之外，我们还引入了一个用于端到端粘合剂设计的集成流程，该流程增加了下游验证、重新设计和排序模块，以缩小湿实验室就绪设计的小范围多样化设计集，用于实验筛选。

针对一系列高难度基准测试和实际应用场景中的结合剂设计挑战对 BoltzGen 进行了评估，并通过实验验证了其在活细胞中的结合能力和功能。我们发现，BoltzGen 能够与多种生物分子和靶点形成强效结合，这些靶点与任何结合蛋白的结构都存在显著差异。这些设计包括针对小分子、肽、酶和蛋白质靶点的纳米抗体、微型蛋白、线性肽和大环结合剂，其中还包括经实验验证的针对固有无序区域的结合剂。

文章配图