Boltz-2 安装及用法：结构与亲和力预测模型

Boltz-2 介绍

该 AI 模型由麻省理工学院计算机科学与人工智能实验室与上市 AI 制药公司 Recursion 共同开发，在 Boltz-1 基础上改进拓展而来。

简单来说，Boltz 与 AlphaFold3 一样，是一种全原子共折叠模型，将蛋白质折叠或结构预测的概念扩展到 DNA、RNA、配体中。该模型不仅可以预测分子相互作用的 3D 结构，还可用于分子设计等下游任务。Boltz-2 将亲和力预测与结构建模相结合，提高了预测结构的物理真实感。

Boltz-2 在一个大型数据集上进行了训练，该数据集结合了 500 万个结合亲和力测量值、分子动力学模拟和蒸馏数据，显著提高了预测结构的物理真实感。

在标准 FEP+ 亲和力基准测试中，Boltz-2 实现了 0.62 的平均 Pearson 相关系数，能够与可开源 FEP 流程 OpenFE 相媲美。但在速度方面，Boltz-2 只需 20 秒即可计算出结合亲和值，比当前 FEP 预测快 1000 倍！

在表示学习方面，亲和力预测建立在驱动共折叠过程的潜在表示之上。这种表示本质上编码了关于生物分子相互作用的丰富信息。因此，Boltz-2 在结合亲和力预测方面的改进是由结构建模的进步所推动的。这些进步源于：（1）扩展训练数据，超越静态结构，包括实验和分子动力学集合；（2）显著扩大多样模态下的蒸馏数据集；（3）通过基于实验方法、用户定义的距离约束和多链模板集成来增强用户控制。

Boltz-2 药物发现的重要场景

Boltz-2 对亲和力的准确预测，使得它可用于药物发现的重要场景：

苗头化合物发现（Hit discovery）：该模型在高通量筛选中区分结合剂（binders）与诱饵（decoys），并在 MF-PCBA 基准测试中实现了显著的富集增益，其表现优于对接（docking）和机器学习（ML）方法。
苗头化合物到先导化合物以及先导化合物优化（Hit-to-lead and lead optimization）：这是药物发现和开发过程中的两个关键阶段。首先'Hit-to-lead'指的是在初期筛选中找到具有活性的化合物，然后通过进一步的化学修饰和生物学测试，将这些'hit'转化为更具潜力和选择性的候选分子，即'lead'。接下来，'lead optimization'是对这些先导化合物进行优化的过程，通过对化合物的结构进行调整，提高其药效、选择性、代谢稳定性等特性。
从头生成（de-novo Generation）：De-novo Generation 与生成模型相结合，Boltz-2 能够发现新的结合剂。在针对 TYK2 靶点的前瞻性筛选中，该流程能够生成多样化、可合成的高亲和力结合剂，这一点通过绝对结合自由能 (ABFE) 模拟估算得出。

文章配图

Boltz-2 的改进及对比优势

与 Boltz-1 相比，Boltz-2 在跨模态的晶体结构预测方面有所改进，特别是在抗体 - 抗原复合物等具有挑战性的目标上表现尤为突出。当与分子动力学模拟进行基准比较时，Boltz-2 在预测关键动态特性（如均方根波动 RMSF）方面的性能可以与近期的专用模型（例如 AlphaFlow 和 BioEmu）相媲美。

文章配图

选项	类型	默认	描述
--out_dir	PATH	./	保存预测的路径。
--cache	PATH	~/.boltz	下载数据和模型的目录。如果设置 BOLTZ_CACHE，将使用环境变量作为绝对路径
--checkpoint	PATH	无	可选检查点。默认使用提供的 Boltz-2 模型。
--devices	INTEGER	1	用于预测的设备数量。
--accelerator	[gpu,cpu,tpu]	gpu	用于预测的加速器。
--recycling_steps	INTEGER	3	用于预测的回收步骤数。
--sampling_steps	INTEGER	200	用于预测的采样步骤数。
--diffusion_samples	INTEGER	1	用于预测的扩散样本的数量。
--max_parallel_samples	INTEGER	5	并行预测的最大样本数。
--step_scale	FLOAT	1.638	步长与扩散过程采样分布的温度有关。步长越低，样本间的多样性越高（建议在 1 到 2 之间）。
--output_format	[pdb,mmcif]	mmcif	用于预测的输出格式。
--num_workers	INTEGER	2	用于预测的数据加载器工作者的数量。
--method	字符串	无	用于预测的方法。
--preprocessing-threads	INTEGER	multiprocessing.cpu_count()	用于预处理的线程数。
--affinity_mw_correction	FLAG	FALSE	是否将分子量校正添加到亲和力值头。
--sampling_steps_affinity	INTEGER	200	用于亲和力预测的采样步骤数。
--diffusion_samples_affinity	INTEGER	5	用于亲和力预测的扩散样本数量。
--affinity_checkpoint	PATH	无	可选的亲和性检查点。默认使用提供的 Boltz-2 模型。
--max_msa_seqs	INTEGER	8192	用于预测的 MSA 序列的最大数量。
--subsample_msa	FLAG	FALSE	是否对 MSA 进行子采样。
--num_subsampled_msa	INTEGER	1024	要进行子采样的 MSA 序列的数量。
--no_trifast	FLAG	FALSE	是否不使用 trifast 内核进行三角更新。
--override	FLAG	FALSE	如果发现，是否覆盖现有预测。
--use_msa_server	FLAG	FALSE	是否使用 msa 服务器生成 msa。
--msa_server_url	字符串	https://api.colabfold.com	MSA 服务器 URL。仅当设置了 --use_msa_server 时使用。
--msa_pairing_strategy	字符串	greedy	使用的配对策略。仅当设置了 --use_msa_server 时才使用。选项包括"greedy"和"complete"。
--use_potentials	FLAG	FALSE	是否使用推理时间潜力运行原始 Boltz-2 模型。
--write_full_pae	FLAG	FALSE	是否将完整的 PAE 矩阵保存为文件。
--write_full_pde	FLAG	FALSE	是否将完整的 PDE 矩阵保存为文件。

选项

类型

默认

描述

--out_dir

PATH

保存预测的路径。

--cache

PATH

~/.boltz

下载数据和模型的目录。如果设置 BOLTZ_CACHE，将使用环境变量作为绝对路径

--checkpoint

PATH

无

可选检查点。默认使用提供的 Boltz-2 模型。

--devices

INTEGER

用于预测的设备数量。

--accelerator

[gpu,cpu,tpu]

gpu

用于预测的加速器。

--recycling_steps

INTEGER

用于预测的回收步骤数。

--sampling_steps

INTEGER

200

用于预测的采样步骤数。

--diffusion_samples

INTEGER

用于预测的扩散样本的数量。

--max_parallel_samples

INTEGER

并行预测的最大样本数。

--step_scale

FLOAT

1.638

步长与扩散过程采样分布的温度有关。步长越低，样本间的多样性越高（建议在 1 到 2 之间）。

--output_format

[pdb,mmcif]

mmcif

用于预测的输出格式。

--num_workers

INTEGER

用于预测的数据加载器工作者的数量。

--method

字符串

无

用于预测的方法。

--preprocessing-threads

INTEGER

multiprocessing.cpu_count()

用于预处理的线程数。

--affinity_mw_correction

FLAG

FALSE

是否将分子量校正添加到亲和力值头。

--sampling_steps_affinity

INTEGER

200

用于亲和力预测的采样步骤数。

--diffusion_samples_affinity

INTEGER

用于亲和力预测的扩散样本数量。

--affinity_checkpoint

PATH

无

可选的亲和性检查点。默认使用提供的 Boltz-2 模型。

--max_msa_seqs

INTEGER

8192

用于预测的 MSA 序列的最大数量。

--subsample_msa

FLAG

FALSE

是否对 MSA 进行子采样。

--num_subsampled_msa

INTEGER

1024

要进行子采样的 MSA 序列的数量。

--no_trifast

FLAG

FALSE

是否不使用 trifast 内核进行三角更新。

--override

FLAG

FALSE

如果发现，是否覆盖现有预测。

--use_msa_server

FLAG

FALSE

是否使用 msa 服务器生成 msa。

--msa_server_url

字符串

https://api.colabfold.com

MSA 服务器 URL。仅当设置了 --use_msa_server 时使用。

--msa_pairing_strategy

字符串

greedy

使用的配对策略。仅当设置了 --use_msa_server 时才使用。选项包括"greedy"和"complete"。

--use_potentials

FLAG

FALSE

是否使用推理时间潜力运行原始 Boltz-2 模型。

--write_full_pae

FLAG

FALSE

是否将完整的 PAE 矩阵保存为文件。

--write_full_pde

FLAG

FALSE

是否将完整的 PDE 矩阵保存为文件。

Boltz-2 安装及用法：结构与亲和力预测模型

Boltz-2 介绍

Boltz-2 药物发现的重要场景

Boltz-2 的改进及对比优势

更多推荐文章

相关免费在线工具

安装及应用

安装

使用推理

输出解析

使用示例

参考文献

更多推荐文章

相关免费在线工具

Boltz-2 安装及用法：结构与亲和力预测模型

Boltz-2 介绍

Boltz-2 药物发现的重要场景

Boltz-2 的改进及对比优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

安装及应用

安装

使用推理

输出解析

使用示例

参考文献

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具