零门槛玩转AI找药!DrugCLIP保姆级操作指南
最近药学圈彻底被清华团队发表在《Science》的DrugCLIP刷屏了!号称“10万亿次蛋白–配体打分计算”一天就能搞定——不过要说明下,文中用的是A100显卡,要是拿一张5060-8G显卡来跑肯定不会这么快
,笔记本、移动端就更不用想了。
但我们完全不用慌高硬件门槛!作者团队早就贴心备好网页版,只要提交任务,就能快速完成“计算”(更准确说是检索)。接下来,小编就专门带纯药学背景的AI小白们(AIDD大佬们麻烦点赞后直接冲GitHub区👀),手把手解锁DrugCLIP的使用方法,实现你的科研目标!
相信大家都已经都刷到过相关文章或公众号介绍🙇,对于纯药学背景的AI小白来说,想简单高效上手,完全不需要死磕公式和原理,因为一环套一环的时间成本实在太高啦。我们的核心需求就一个:知道怎么用AI达成目标即可!至于模型评价、数据集处理这类内容,纯药学背景且没精力深究AI的同学,略看甚至不看都没问题~ 我们就做AI的“使用者”,不用当“研究者”!
想快速上手任何AI工具,记住3个核心问题就够了,比记公式简单10倍:
- 最关键:这个AI模型的核心功能是什么?
- 应用域是什么(看case study就懂)?也就是它适用于哪些场景、哪些内容?
- 输入和输出的内容是什么?
我们就拿DrugCLIP举个例子👇
1
DrugCLIP模型的功能是什么?
给口袋找配体:如果已知目标口袋,能在网站可选的化合物库中,快速筛选出最可能与之结合的化合物;
给配体找口袋:如果已知目标配体,能在网站自带的蛋白口袋库中,精准匹配出最可能与之结合的口袋。
有人可能会问:那它能找和目标蛋白结合的其他蛋白吗?emm抱歉,这不是它的“业务领域”哦
2
DrugCLIP适合用在哪些场景?
借用作者团队的一句话:“我们算法更适合筛选蛋白质-小分子口袋,对于其他的口袋,效果不太能保证。”
正确的专业的中肯的!不过小编觉得,只要我们手头有蛋白口袋或配体,都可以大胆试试!反正操作超简单、出结果又快,不试白不试🙋,万一能出惊喜呢?
3
输入输出对应关系,一张表搞定!
输入 | Model | 输出 |
口袋 | DrugCLIP | 可能与之“结合”的配体 |
配体 | 可能与之“结合”的配体 |
恭喜你!看到这里,DrugCLIP的核心使用逻辑已经完全搞懂了!
还是觉得心里没底?别慌!接下来小编再把准备输入心仪的蛋白口袋或配体时的关键要求说透👌
注意事项
基本要求:必须严格按照网站示例的模板格式准备!DrugCLIP需要的是蛋白PDB文件,这是后续提取口袋的基础。
文中要求:口袋位置一定要给准!划重点:DrugCLIP对口袋构象的要求相对宽松,但最怕口袋位置找错——位置一错,结果肯定不准,之前的努力就白费啦。
以上就是DrugCLIP的核心基础认知,搞懂这些,实操就没难度了!接下来,正式进入网页版DrugCLIP手把手实操环节!

类型一:给口袋(已知)找配体
以CYPA蛋白为例(PDB:8G9P,https://www.rcsb.org/structure/8G9P)
我们可以先看下网站中给的例子是什么。下载例子得到两个文件,2fyt_protein .pdb和2fyt_1.sdf,打开可以看到,一个是全蛋白文件,一个是配体文件。
注意!如果使用后续使用Specify the pocket location中的By Upload Ligand来确定口袋,那么应该将配体对接到正确的蛋白口袋中,我们也准备相同格式的文件即可。
同时,我们也可以看到也支持以下格式的文件:“Supports: .pdb, .cif, .sdf, .mol2. Ensure that the uploaded file contains the complete protein receptor structure.”

01
目标蛋白和配体预处理
在pymol或RCSB网站下载蛋白的pdb文件,得到8G9P.pdb,然后(建议):删除水、删除其他蛋白、其他例子,仅保留目标蛋白和配体,另存为蛋白8g9p_protein.pdb和8g9p_lig.sdf,注意保存格式。

02
上传网站及选择口袋提取方法
2.1将刚刚提取的蛋白pdb文件上传。
2.2以下四种方法四选一即可
A. 选择By Upload Ligand方法,将刚刚配体上传,应该是将基于配体位置自动识别口袋(也是之前说选择此方法要对接到正确到口袋的原因),根据文章中的描述原理,即使上传不同的配体,只要口袋正确且相同应该不会影响筛选得到的分子,即对于同一个口袋的Top分子将会是相同的(前提:同库)
B. 选择By Het Id方法,此方法应该上传的是无配体的pdb文件,输入配体的Het Id即可识别对应口袋,。
C. 选择By Center Coordinates方法,此方法应该上传的是无配体的pdb文件,输入配体在pdb文件中的xyz位置,pymol中即可查看位置。
D. 选择By Residue方法,此方法应该上传的是无配体的pdb文件,输入配体的附近的口袋残基即可,pymol中即可查看对应配体的口袋残基。

Het Id查看方法,可以直接在RCSB网站中对应的蛋白条目下方查看目标配体的Het Id名称(下图),也可以直接用记事本打开pdb文件进行查看(上图),均可看到本例中的配体的Het Id为YV2。

03
选择筛选的目标库以及Top_K
目标库即选择查找小分子的范围,本例中仅选择ChemDiv库进行演示。
Top_K:选择最终输出的数量,本例中选择前100打分的进行输出演示。

04
输入工作名运行、查看结果
如果不输入Job name无法运行。



类型二:给配体(已知)找口袋
直接上传一个小分子即可实现钓靶。

类型三:构建化合物库
网站中还提供了自定义化合物库进行筛选
只需要上传一个csv文件即可,相对简单。
包含以下两列
ID SMILES
以下是论文作者发布的在线问题汇总,供大家参考:
https://kwansgdlwoz.feishu.cn/wiki/JhKAwMMgIiwC7ZkfnLucxitjnxZ