蛋白质功能预测模型DAMPE论文阅读报告

蛋白质功能预测模型DAMPE论文阅读报告

基本信息

来自中山大学,2025.10.27提交在arxiv上的论文,模型的名字和某个暗物质探测器相同(

论文地址:[2510.23273] A Novel Framework for Multi-Modal Protein Representation Learning

代码地址:https://anonymous.4open.science/r/DAMPE-ACD8

数据类型:用序列+结构+PPI,预测GO标签

数据集:与DPFunc论文使用的同一个数据集,从CAFA中筛选的59000+个蛋白质

模型结构

模型大体结构非常清晰,初始嵌入、特征对齐、异构图去噪、分类。

模型有很多比较新颖的点(个人观点)

1、Poincare嵌入(庞加莱嵌入,双曲几何嵌入)

这个东西一般是用于知识图谱的数据表征,这里它用来做GO的初始嵌入,也非常合适

(图片来自网络)

具体的数学原理比较复杂,我们只需要知道,越general的标签越靠近球的中心,越具体的标签越靠近球的边缘就可以了。除此之外,同层级的标签也会相互排斥,保证同级概念的差异性。

具体数学推导可以见这篇博客[论文笔记]Poincaré Embeddings & Hierarchical Represent - 知乎

没想到2019年就已经提出了,这篇文章的作者认为这个用途并不大,但其实用在这种具有层次结构的标签分类任务中还是挺合适的(

2、最优传输理论

最优传输问题是求解两个分布之间的最小距离

比如贪心的经典例题:均分纸牌,就是将一个离散的任意分布,以最小的代价转移为一个均匀离散分布。

再复杂一点,我们的目标分布可以不是均匀的,例如下图。它依旧有贪心算法能解决,推土机算法。不过它要求移动距离(单位代价)必须是两坐标的绝对值距离。

再复杂一点,我们重新定义距离,任意两点的距离表示为dis(i,j),我们可以构建以下的最小费用流模型来解决:

更加复杂的,还有连续分布的情况,不过也有通用的计算公式

也可以采用的迭代算法来求解离散最优传输问题,Sinkhorn迭代

(这部分的数学理论非常多,我也没有研究太深,也有可能有些地方讲错了,还请大佬们指出)

在论文中,最优传输理论的运用就是,将结构的嵌入向量对齐到序列的嵌入向量上

利用Sinkhorn求解出的最优传输方案矩阵T*(过去是训练一个MLP映射)

用最小的代价,保持映射后的结构嵌入向量上各个位置的值与序列嵌入向量中的分布一致

3、异构图去噪

在蛋白质功能预测领域,利用异构图的论文已经非常多了,其实算不上新颖。

一旦要使用异构图,就必须考虑数据泄露的问题,测试集里面的蛋白质与GO信息很容易在训练中通过PPI网络和GO标注网络泄露出来。

不过这个模型的数据泄露的风险不高。异构图构建时清理了测试集蛋白质的Protein-GO标注边。

每个蛋白质取k跳内的子图,作为它的ego-graph,对ego-graph进行加噪与还原。

使用的是DiGress模型,通过一系列操作对异构图引入噪声(Forward Process),通过graph-transformer还原图中节点的类型,使用交叉熵损失训练。

虽然描述非常复杂,什么马尔可夫过程,条件图生成之类的,但其实就是加了一个对ego-graph去噪的学习任务。

4、其他

文中还提到了GearNet,不过它已经是比较老的结构模型了,和GVP差不多是一个时期的。

所以不打算展开讲了。放两张PPT

实验结果

对比实验

可以说是完完全全瞄着DPFunc出手的一篇文章,但DPFunc的论文指标其实是虚低的,实际跑起来会更高。

消融实验

先对特征对齐部分进行了消融实验
四种方法:直接拼接,对比学习(以同个蛋白质的seq和struct嵌入为正样本对,不同蛋白质间的嵌入为负样本对),交叉注意力,串行连接(类似DPFunc,将ESM2的输出作为GearNet的初始节点特征)

比较可惜的地方在于,没有做把OT换成可训练的MLP的实验。

然后对信息融合部分做了消融实验

三种方法:用GAT和SAGE融合PPI信息(把MoE换成GNN,在PPI图上卷积),不使用CGG方法,直接使用MoE。

感觉用GraphTransformer做的CGG对结果的提升并不大,耗费大量运算资源,最终只提升0.004。

多任务训练可能还是对蛋白质功能预测任务存在一定的影响。如果能改进一下信息融合的过程,可能会有更好的结果。

其他实验

还做了参数敏感性分析和具体案例分析的实验,不过不打算展开讲了。

放张PPT。

后记

这篇论文数学偏向更多一些,很多东西都与数学理论相关,读的时候可能需要了解很多数学背景。

论文全长30多页,内容非常多,如果有想要了解的细节,可以去看看论文原文。

Read more

【verilog语法详解:从入门到精通】

【verilog语法详解:从入门到精通】

verilog语法详解:从入门到精通 * 一、Verilog 核心定位与语法框架 * 二、基础语法:模块与端口 * 三、核心数据类型 * 四、逻辑描述:组合逻辑与时序逻辑 * 五、常用运算符 * 六、控制流语句 * 七、进阶特性:任务与函数、生成块 * 八、语法规范与常见错误 * 九、总结 一、Verilog 核心定位与语法框架 1. 核心特点 并行性:模块内的所有语句(如 assign、always 块)同时执行(对应硬件的并行工作),而非按代码顺序执行。 硬件映射:每段语法都对应明确的硬件(如 reg 对应寄存器,wire 对应导线,and 对应与门)。 层次化:通过

OpenClaw 接入飞书机器人保姆级教程

OpenClaw 接入飞书机器人保姆级教程

如果你的 OpenClaw 已完成初始部署、WebUI 可正常收发回复,现在想接入飞书机器人,这篇教程会带你从创建机器人到配置完成,一步到位。 相信你在部署 OpenClaw 时已经踩过不少坑,这篇文章会帮你尽量避开飞书对接中的常见问题,少走弯路。废话不多说,教程正式开始!原文地址 内置飞书插件 如果您使用的是最新版本的 OpenClaw那么已经内置了 Feishu 插件,通常不需要让我们单独进行安装。 如果您使用的是之前比较旧的版本,或者是没有内置的 Feishu 的插件,可以手动进行安装,执行下方命令: 创建飞书机器人 我们先来创建飞书的应用,我们可以复制下方地址进行一键直达 创建企业自建应用 打开后,我们点击【创建企业自建应用】,如果您还没有飞书账号的话,请先注册飞书的账号后再进行创建应用 我们创建企业自建应用然后输入应用名称和应用描述,还有应用图标,我们都可以自定义进行上传,或者选择其他照片当作应用图标。输入完之后我们点击创建 获取 AppID 和 AppSecret 我们点击凭证与基础信息一栏查看我们的App ID 和 App

近五年体内微/纳米机器人赋能肿瘤精准治疗综述:以 GBM 为重点

近五年体内微/纳米机器人赋能肿瘤精准治疗综述:以 GBM 为重点

摘要 实体瘤治疗长期受制于递送效率低、肿瘤组织渗透不足以及免疫抑制与耐药等问题。传统纳米药物多依赖被动累积与扩散,难以在肿瘤内部形成均匀有效的药物浓度分布。2021–2025 年,体内微/纳米机器人(包括外场驱动微型机器人、自驱动纳米马达以及生物混合机器人)围绕“运动能力”形成了三条相互收敛的技术路线: 其一,通过磁驱、声驱、光/化学自驱等方式实现运动增强递药与深层渗透,将治疗从“被动到达”推进到“主动进入”; 其二,与免疫治疗深度融合,实现原位免疫唤醒与肿瘤微环境重塑; 其三,针对胶质母细胞瘤(glioblastoma, GBM)等难治肿瘤,研究趋势转向“跨屏障递送(BBB/BBTB)+ 成像/外场闭环操控 + 时空可控释放”的系统工程。 本文围绕“运动—分布—疗效”的因果链条,总结 2021–2025 年代表性研究与关键评价指标,讨论临床转化所需的安全性、

本地多模型切换利器——Llama-Swap全攻略

本地多模型切换利器——Llama-Swap全攻略

运行多个大语言模型(LLM)非常有用: 无论是用于比较模型输出、设置备用方案(当一个模型失败时自动切换)、还是实现行为定制(例如一个模型专注写代码,另一个模型专注技术写作),实践中我们经常以这种方式使用 LLM。 一些应用(如 poe.com)已经提供了多模型运行的平台。但如果你希望完全在本地运行、多省 API 成本,并保证数据隐私,情况就会复杂许多。 问题在于:本地设置通常意味着要处理多个端口、运行不同进程,并且手动切换,不够理想。 这正是 Llama-Swap 要解决的痛点。它是一个超轻量的开源代理服务(仅需一个二进制文件),能够让你轻松在多个本地 LLM 之间切换。简单来说,它会在本地监听 OpenAI 风格的 API 请求,并根据请求的模型名称,自动启动或停止对应的模型服务。客户端无需感知底层切换,使用体验完全透明。 📌 Llama-Swap 工作原理 概念上,Llama-Swap 就像一个智能路由器,