EZSpecificity:基于交叉注意力图神经网络的酶底物特异性预测
论文信息
[1] Cui, H.; Su, Y.; Dean, T. J.; Yu, T.; Zhang, Z.; Peng, J.; Shukla, D.; Zhao, H., Enzyme specificity prediction using cross attention graph neural networks. Nature 2025. (DOI: 10.1038/s41586-025-09697-2)
核心概念回顾
在深入模型之前,我们先理清几个基础概念,这有助于理解 AI 是如何'看懂'生物分子的。
酶与底物
- 酶(Enzyme):最初是一串氨基酸序列(如 MKFVK...),像未组装的乐高零件。通过物理法则折叠成具有固定形状的 3D 实体,形成独特的活性位点(锁孔)。只有形状和电荷完全匹配的底物才能进入并触发反应。
- 底物(Substrate):被酶选中的小分子原料(如糖、脂肪、药物前体)。它是反应的输入端,进入酶的口袋发生化学键变化后变为产物。
- 对接(Docking):AI 模拟底物在酶活性位点的结合过程。程序会尝试数百万种姿态(Poses),计算结合能量。能量越低,说明结合越稳定,即'对接成功'。
一句话总结:酶是把一维代码折叠成三维智能锁,而 AI 的任务就是算出哪把钥匙能插进去。
模型架构拆解
EZSpecificity 是一个酶 - 底物特异性预测模型,核心在于融合序列、结构及相互作用信息。流程分为输入预处理、双编码模块、双向交叉注意力融合、特异性预测四大部分。
第一部分:序列分析(进化变换器编码)
这部分处理酶的氨基酸序列。
- 输入:蛋白质序列(如
MKFVRRIIA...)。 - 处理器:ESM-2 蛋白质语言模型。这是一个预训练好的'语言大师',读得懂蛋白质的进化语言。
- 输出:将序列映射到 1,024 维的潜空间,捕捉进化信息,输出高维特征向量。
第二部分:3D 结构分析(搜身)
这部分处理底物和酶的三维结构。
- 输入:底物分子结构与蛋白质 3D 结构。
- 预处理:使用 Vina-GPU2.0 完成分子对接,模拟底物嵌入活性口袋。
- 编码器:
- Internal MPNN:仅关注底物分子内部,汇聚原子特征形成'底物特征向量'。
- Interaction MPNN:扫描接触微环境,分析原子间距离、空间位置及化学键相互作用。
- 输出:催化微环境的特征表示。
第三部分:双重交叉注意力融合
这是模型最聪明的地方。它没有简单拼接特征,而是让序列特征与结构特征互相提问。
- 机制:Double Cross-Attention(双重交叉注意力)。
- 操作:将不同输入特征分别作为 Q(查询)、K(键)、V(值),进行双向交叉计算。
- 结果:生成'加权催化核心嵌入'与'加权序列嵌入',实现特征的深度交互。
第四部分:最终判决(预测)
- 融合:经过交叉计算后的强化特征块。
- 神经网络:多层感知机(MLP)作为决策区。
- 输出:特异性评分。分数越高(越接近正数或负得越少),代表匹配度越高,结合可能性越大。


