跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

医疗 AI 前沿:AI 大模型在药物靶点发现中的应用

综述由AI生成探讨了人工智能在药物研发靶点发现中的关键作用。首先介绍了药物研发的复杂流程及“三十定律”,指出靶点发现的重要性。接着详细分析了基于医学大语言模型(如 BioGPT-G)驱动新颖靶点发现的原理、流程及局限性,包括额外预训练、Prompt 设计及信息提取机制。随后阐述了 AI 在蛋白质结构预测领域的突破,以 AlphaFold2 和 ESMfold 为例,解释了深度学习如何解决蛋白质折叠的 NP 完全问题,并讨论了当前模型在可解释性、多态性预测及数据依赖方面的不足。最后总结认为 AI 是优化药物开发的有力工具,但仍需结合人类智慧与实验验证。

机器人发布于 2025/2/7更新于 2026/6/417 浏览
医疗 AI 前沿:AI 大模型在药物靶点发现中的应用

医疗 AI 前沿:AI 大模型在药物靶点发现中的应用

引言

随着 2006 年深度学习(Deep Learning)算法的提出,人工智能(AI)的发展进入了第三次浪潮。深度学习凭借自身优秀的信息表征及关系提取能力,已经为计算机视觉(CV)及自然语言处理(NLP)等领域带来了突破性的进展。现在,AI 的魔力已经被逐步引入药物研发的领域,并正在深刻地改变这个领域的研究和发展流程。无论是在早期的药物筛选、药物优化,还是在药物的临床试验和后期的上市监控,AI 的应用都愈发广泛。

本文将简要概括药物研发的流程,并深入探讨 AI 在药物研发的第一步:靶点发现中的作用,以及它如何为这个过程带来革新。

药物研发的整体流程

药物的研发是一个复杂且耗时的过程,业内一直流传着'三十定律'的说法:耗时 10 年,耗资 10 亿美金,成功率不足 10%。因此,如何降低药物研发的金钱成本、时间成本,提高成功率已然成为了药物研发行业的重中之重。

通常而言,药物的研发包括以下步骤:靶点发现,候选药物筛选,候选药物优化,临床前研究,临床实验,以及市场化等步骤。靶点发现作为整个流程的第一步,是新药研发中决定成败的一步,成功的靶点识别可以为后续的药物设计提供方向。不仅能提高新药的研发效率,也能极大地改善患者治疗期间的生活质量。

图片

药物研发生产流程示意图

在 AI 的第三次浪潮之前,靶点的识别通常依赖多组学实验方法或者计算机辅助药物设计的方法。多组学方法主要通过对病例组和对照组进行基因组、蛋白质组等组学数据差异性比较,提取出可能致病的基因或蛋白靶点。这一方法通常有着较高的准确性,但整体策略既费时又费力,且实验结果严重受到生物样本质量的限制。

计算机辅助的方法主要包括反向对接,结构相似性分析等。这些计算技术能够一定程度上加速靶点的筛选速度,但同样存在自身的局限性。如反向对接需要在大量的蛋白质目标中进行对接,这会极大的消耗计算资源和时间。结构相似性分析则非常依赖已知的蛋白结构,对结构未知的蛋白无从下手。

随着 AI 技术的发展,越来越多的问题在 AI 的帮助下得到了改善。如大语言模型可以整合海量的医疗研究相关文本,通过在文本中提取潜在的关联信息,发现人类可能忽视的模式或连接。目前已有研究通过向大语言模型提问的方式,提取出针对特定疾病的潜在靶点,从而避免一些不必要的组学实验。此外,AI 模型完成训练之后,可以将类似反向对接技术的时间复杂度降低到线性级别,甚至提高精度。AI 也可以进行蛋白质结构的预测,从而帮助结构相似性分析等技术的实现。

基于上述所提的 AI 在靶点发现中的应用,本文将依据近期的 AI 医疗相关论文,为大家介绍 AI 在药物靶点发现中的两个应用:驱动新颖靶点的发现,预测蛋白质结构。并将为大家介绍这些方法的技术细节以及局限性。

医学大语言模型驱动新颖靶点的发现

BioGPT-G 工作原理

细分领域额外预训练: 作者将 Microsoft 已经预训练得到的医学文本大模型 BioGPT 作为 baseline,利用与靶点发现更相关的美国国家卫生研究所(NIH)科研基金资料对其进行了额外的预训练,以期望提高 BioGPT 在靶点发现这一细分任务上的预测性能。额外预训练的 BioGPT 被称为 BioGPT-G。作者发现,将大语言模型在细分领域上进行额外预训练后,模型相比 baseline 能够与细分领域具有更大的关联性,这将更充分的调动大语言模型在细分任务上的性能。

PROMPT 设计: 作者期望向 BioGPT-G 询问疾病相关靶点时,模型能直接回答基因的名称。因此作者对多种 prompt 进行了评测。依据向模型输入 prompt 时,返回的概率前 1000 的 token 列表中基因缩写的数目进行评价,数目越多,该 prompt 越好。最终得到的 prompt 为:'human gene targeted by a drug for treating {DISEASE} is the'。作者发现 prompt 的长度越短,模型越容易直接返回基因名称。此外 prompt 以 the 或者 a 结尾也能够提高模型直接返回基因名称的概率。

信息提取流程设计: 因为绝大部分的基因名在 BioGPT-G 的字典中都并非是单独的一个 token,而是多个 token 组合而成的。如基因 EXO1 在 BioGPT 的字典中是由 EX,O,1 组合而成的。因此在计算多 token 基因的 next token probability 时,作者按照下图所示的流程进行迭代,反复计算 next token probability 并将属于同一基因的结果进行整合。最后依据各个基因的 probability 进行排序,便可以得到与输入 prompt 中的疾病高关联的基因靶点。

图片

BioGPT-G 信息提取流程示意图

文章结论

通过上述方法,作者将 prompt 中的 {DISEASE} 设置为阿尔兹海默症、肌萎缩性侧索硬化症等 14 个衰老相关疾病。对于每个疾病分别提取输出基因列表中 top200 的基因及 probability。最后提取出 14 个衰老疾病共有的靶点基因,共提取出了 9 个靶点。这些靶点中 6 个是已经报道过的衰老相关靶点,一定程度上反应了该方法的准确性。同时还发现了 3 个新颖靶点,其中 1 个由于不可成药性无法使用,但剩余的 2 个均有可能是人类目前忽视的衰老相关靶点。

图片

BioGPT-G 衰老疾病相关靶点预测结果示意图

使用大语言模型进行新颖靶点预测的缺陷及展望

虽然 BioGPT-G 在衰老相关靶点预测的任务中取得了令人欣喜的结果,但毫无疑问其仍有着严重的缺陷。BioGPT-G 虽然能给出 6 个已经报道过的靶点,但另外 2 个新颖靶点在专业研究人员看来仿佛空穴来风,因为我们无法去理解大语言模型给出这些结果背后的逻辑,且目前也没有一个令人信服的预测准确率数据。因此,很多科研人员相比于相信大语言模型挖掘出的新颖靶点,更相信自己亲手一步步挖掘得到的靶点,即便亲手挖掘需要远超大语言模型的时间成本和金钱成本。

此外,医药研发并非像常规的自然语言处理一样,能简单快捷的验证模型答案的准确性。医药研发涉及到人类健康和生命,所以在应用这些模型时需要特别谨慎。目前任何新的靶标发现都需要经过严格的实验验证,以确保其科学性和有效性。在大语言模型解释性不足的当下,虽然能免除一些探索性实验,还做不到去除实验验证的步骤。

在未来,我们期待能看到大语言模型与其他技术(如结构生物学,基因编辑等)的进一步融合,以提高靶标发现的效率和精度。与此同时,我们也期待看到更多的研究来提高模型的解释性,使其在医药研发中的应用更加透明和可靠。

总而言之,大语言模型为医药研发带来了新的可能性,但同时也带来了新的挑战。我们需要以开放和批判的态度来接纳这些新的工具,不断探索和优化它们在靶标发现中的应用。

人工智能助力蛋白靶点结构的预测

正如我们之前所提到的,靶点发现中一个非常重要的计算手段便是蛋白结构相似性分析,但如果蛋白的结构本身未知,那他就很难被用于结构相似性分析,也就难以被定性为可能的靶点。同样的,如果一个已知为靶点的蛋白结构未知,那针对这一靶点的药物设计也变得难上加难。

然而蛋白质结构预测一直以来都是一个极具挑战性的问题。蛋白质结构预测本身是一个 NP-complete 问题,即使是一个很小的蛋白质,也可能有极多组合的折叠方式。例如,一个只有 100 个氨基酸的蛋白质,如果每个氨基酸有 3 种可能的构象(即,3 种可能的空间方向),那么可能的折叠方式就有 3^100 种,这个数字远远超过了宇宙中的原子数量,通过常规计算方式进行计算甚至需要计算到宇宙毁灭。因此,以往均是通过实验的方法(例如 X 射线晶体学或核磁共振)去完成蛋白质结构的预测,但仍然需要数周、数月甚至数年的时间。另外,有些蛋白质的结构至今仍然无法通过传统的方法来解决。近年来,人工智能的快速发展为解决这一难题带来了希望。在这里我们以第一个跨纪元工具 AlphaFold2 为例,来介绍人工智能在蛋白结构预测中起到的帮助。

AlphaFold2 是由 DeepMind 公司研发的一种人工智能算法,它能够对蛋白质的三维结构进行精确预测。在 2020 年,AlphaFold2 在蛋白质结构预测的全球竞赛——CASP14 中取得了突出的成绩,其预测精度甚至达到了实验水平,这在人工智能领域引起了巨大的轰动。

AlphaFold2 的工作原理

AlphaFold2 的工作原理基于深度学习,它使用了一种名为 Evoformer 的 Transformer 模型变种。Transformer 模型最初是为解决自然语言处理问题而设计的,但 DeepMind 的科学家们发现,它也非常适合描述蛋白质序列。在 AlphaFold2 中,每个氨基酸被视为一个单词,一串氨基酸序列就构成了一句'话'。通过 Transformer 模型,AlphaFold2 能够理解蛋白质序列中的'语境',进而预测出蛋白质的三维结构。

AlphaFold2 的输入主要为蛋白质序列的多序列比对(MSA)结果,MSA 的构建方式是将输入的蛋白质序列与蛋白质数据库中的序列进行多比对,提取出与输入序列相似的所有序列,并构建为一个矩阵。这种比对基于这样一个假设:序列的相似性表示它们具有共同的进化起源。多序列比对可以帮助确定多物种保守的序列区域,这些区域在进化过程中保持不变,可能是因为它们对生物有重要的功能。AlphaFold2 通过 MSA 来提取出蛋白质序列的进化信息,此外,如果在 MSA 中的多个序列中观察到两个位置的氨基酸同时变化,那么这可能暗示这两个氨基酸在蛋白质的空间结构中是相互接近的。AlphaFold2 利用 transformer 的信息提取能力,充分学习了这种'协变'信息,从而更准确地预测蛋白质的三维结构。

图片

AlphaFold2 模型框架示意图

后续工具针对 AlphaFold2 的改进

AlphaFold2 的出现无疑是一个巨大的突破,但同样他并不完备。AlphaFold2 自身存在着许多不足,如 MSA 构建的步骤,会极大的占用计算时间。因此很多方法基于这一缺陷,提出了新的技术,如 Meta 公司提出了 ESMfold。

ESMfold 放弃了 MSA 的构建步骤,而是采用了使用一个蛋白质大语言模型 ESM2,来对氨基酸之间的相互作用模式进行表征。ESM2 同样基于 Transformer 架构,可以针对输入的蛋白质序列直接提取出其包含进化信息 embedding。该 embedding 可以直接输入类似 AlphaFold 的 Evoformer 中。这种端到端的计算方法,使得 ESMfold 的推理速度比 AlphaFold2 快了一个数量级。更适合用户的使用。

图片

ESMfold 模型框架示意图

AI 辅助蛋白质结构预测仍存的问题

尽管目前 AI 模型为蛋白质结构预测提供了非常大的帮助,但受限于深度学习的可解释性,它们的工作原理仍然是难以理解的黑箱。这对在生物学研究中希望理解蛋白质折叠原理的研究人员来说是一个问题。

此外许多蛋白质在体内不只有一种结构,它们可能会根据不同的环境条件或相互作用对象而改变结构。当前的 AI 模型往往只能预测一种最稳定的结构,而不能对结构的多态性进行预测。

现有的 AI 模型同样严重依赖已知结构的蛋白质家族,对于那些并没有实验得到结构的蛋白质家族,AI 模型通常表现较差。

写在最后

毫无疑问,人工智能的发展对药物靶点的鉴定起到了一定帮助。但需要注意的是,这些帮助并非是颠覆性的,而是一种在目前技术框架下的优化和增强。无论是大语言模型推动的新颖靶点发现还是 AI 辅助的蛋白质结构预测,在医疗行业的应用都会严重受限于深度学习的可解释性和训练数据的质量。

总的来说,AI 在药物靶点识别中的应用无疑为我们提供了新的工具和技术,使我们能够更好地理解和解决生物医学中的一些复杂问题。但我们也应明白,AI 只是一个工具,最终的药物开发仍然需要人类的智慧和努力。因此,我们既要看到 AI 的巨大潜力,也要认识到它的局限性,合理地运用 AI,以期在药物靶点识别和药物开发中取得更大的进步。

目录

  1. 医疗 AI 前沿:AI 大模型在药物靶点发现中的应用
  2. 引言
  3. 药物研发的整体流程
  4. 医学大语言模型驱动新颖靶点的发现
  5. BioGPT-G 工作原理
  6. 文章结论
  7. 使用大语言模型进行新颖靶点预测的缺陷及展望
  8. 人工智能助力蛋白靶点结构的预测
  9. AlphaFold2 的工作原理
  10. 后续工具针对 AlphaFold2 的改进
  11. AI 辅助蛋白质结构预测仍存的问题
  12. 写在最后
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Mac Mini 部署 OpenClaw 本地 AI 智能体配置指南
  • OpenClaw 在 Ubuntu 20.04 系统上的部署步骤
  • 深度学习:激活函数大全
  • HarmonyOS6 RcButton 组件样式系统深度剖析
  • OpenClaw 深度解析:从个人 AI 助理到开源智能体平台
  • OpenClaw 龙虾机器人本地部署与配置指南
  • VSCode Copilot 配置 OpenAI 兼容自定义模型指南
  • VSCode 配置 Copilot 接入 DeepSeek 模型实战
  • Copilot 接入第三方 OpenAI 接口配置指南
  • Claude-Code 2.1.88 源码结构解析:基于 Source Map 还原的内部实现
  • 基于 Vue3 的大文件分片加密与断点续传实现方案
  • C# 与 Python 在 AI 模型路由中的性能对比与选型指南
  • Stable Diffusion v1.5 风格迁移实战:照片转油画/水彩/像素风
  • DeepSeek 各版本说明与优缺点分析
  • PyCharm 启动报错 Archived non-system classes are disabled 解决方案
  • 50 道经典 Python 面试题解析
  • Dify 开源 LLM 应用开发平台核心功能与架构解析
  • MySQL 数据类型核心指南:选型、实战与避坑
  • Python 异步爬虫与 K8S 弹性伸缩:构建高并发数据采集引擎
  • Go Web 开发核心理论与实战指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online