医疗 AI 前沿：AI 大模型在药物靶点发现中的应用

引言

随着 2006 年深度学习（Deep Learning）算法的提出，人工智能（AI）的发展进入了第三次浪潮。深度学习凭借自身优秀的信息表征及关系提取能力，已经为计算机视觉（CV）及自然语言处理（NLP）等领域带来了突破性的进展。现在，AI 的魔力已经被逐步引入药物研发的领域，并正在深刻地改变这个领域的研究和发展流程。无论是在早期的药物筛选、药物优化，还是在药物的临床试验和后期的上市监控，AI 的应用都愈发广泛。

本文将简要概括药物研发的流程，并深入探讨 AI 在药物研发的第一步：靶点发现中的作用，以及它如何为这个过程带来革新。

药物研发的整体流程

药物的研发是一个复杂且耗时的过程，业内一直流传着'三十定律'的说法：耗时 10 年，耗资 10 亿美金，成功率不足 10%。因此，如何降低药物研发的金钱成本、时间成本，提高成功率已然成为了药物研发行业的重中之重。

通常而言，药物的研发包括以下步骤：靶点发现，候选药物筛选，候选药物优化，临床前研究，临床实验，以及市场化等步骤。靶点发现作为整个流程的第一步，是新药研发中决定成败的一步，成功的靶点识别可以为后续的药物设计提供方向。不仅能提高新药的研发效率，也能极大地改善患者治疗期间的生活质量。

药物研发生产流程示意图

在 AI 的第三次浪潮之前，靶点的识别通常依赖多组学实验方法或者计算机辅助药物设计的方法。多组学方法主要通过对病例组和对照组进行基因组、蛋白质组等组学数据差异性比较，提取出可能致病的基因或蛋白靶点。这一方法通常有着较高的准确性，但整体策略既费时又费力，且实验结果严重受到生物样本质量的限制。

计算机辅助的方法主要包括反向对接，结构相似性分析等。这些计算技术能够一定程度上加速靶点的筛选速度，但同样存在自身的局限性。如反向对接需要在大量的蛋白质目标中进行对接，这会极大的消耗计算资源和时间。结构相似性分析则非常依赖已知的蛋白结构，对结构未知的蛋白无从下手。

随着 AI 技术的发展，越来越多的问题在 AI 的帮助下得到了改善。如大语言模型可以整合海量的医疗研究相关文本，通过在文本中提取潜在的关联信息，发现人类可能忽视的模式或连接。目前已有研究通过向大语言模型提问的方式，提取出针对特定疾病的潜在靶点，从而避免一些不必要的组学实验。此外，AI 模型完成训练之后，可以将类似反向对接技术的时间复杂度降低到线性级别，甚至提高精度。AI 也可以进行蛋白质结构的预测，从而帮助结构相似性分析等技术的实现。

基于上述所提的 AI 在靶点发现中的应用，本文将依据近期的 AI 医疗相关论文，为大家介绍 AI 在药物靶点发现中的两个应用：驱动新颖靶点的发现，预测蛋白质结构。并将为大家介绍这些方法的技术细节以及局限性。

医学大语言模型驱动新颖靶点的发现

BioGPT-G 工作原理

细分领域额外预训练： 作者将 Microsoft 已经预训练得到的医学文本大模型 BioGPT 作为 baseline，利用与靶点发现更相关的美国国家卫生研究所（NIH）科研基金资料对其进行了额外的预训练，以期望提高 BioGPT 在靶点发现这一细分任务上的预测性能。额外预训练的 BioGPT 被称为 BioGPT-G。作者发现，将大语言模型在细分领域上进行额外预训练后，模型相比 baseline 能够与细分领域具有更大的关联性，这将更充分的调动大语言模型在细分任务上的性能。

PROMPT 设计： 作者期望向 BioGPT-G 询问疾病相关靶点时，模型能直接回答基因的名称。因此作者对多种 prompt 进行了评测。依据向模型输入 prompt 时，返回的概率前 1000 的 token 列表中基因缩写的数目进行评价，数目越多，该 prompt 越好。最终得到的 prompt 为：'human gene targeted by a drug for treating {DISEASE} is the'。作者发现 prompt 的长度越短，模型越容易直接返回基因名称。此外 prompt 以 the 或者 a 结尾也能够提高模型直接返回基因名称的概率。

信息提取流程设计： 因为绝大部分的基因名在 BioGPT-G 的字典中都并非是单独的一个 token，而是多个 token 组合而成的。如基因 EXO1 在 BioGPT 的字典中是由 EX，O，1 组合而成的。因此在计算多 token 基因的 next token probability 时，作者按照下图所示的流程进行迭代，反复计算 next token probability 并将属于同一基因的结果进行整合。最后依据各个基因的 probability 进行排序，便可以得到与输入 prompt 中的疾病高关联的基因靶点。