VLM Unlearning 技术路线论文阅读总结与梳理
总结了多模态大模型(VLM)中的四种 Unlearning 技术路线:AUVIC 通过对抗优化抑制目标概念;Neuron Pruning 基于模态偏置剪枝特定神经元;Neuron Path Editing 定位并编辑关键神经元路径;MLLM Eraser 利用激活导向在推理阶段实现知识擦除。这些方法旨在让模型选择性遗忘隐私或敏感知识,同时保持其他能力不受影响,解决了重新训练成本高及多模态特征耦合的问题。

总结了多模态大模型(VLM)中的四种 Unlearning 技术路线:AUVIC 通过对抗优化抑制目标概念;Neuron Pruning 基于模态偏置剪枝特定神经元;Neuron Path Editing 定位并编辑关键神经元路径;MLLM Eraser 利用激活导向在推理阶段实现知识擦除。这些方法旨在让模型选择性遗忘隐私或敏感知识,同时保持其他能力不受影响,解决了重新训练成本高及多模态特征耦合的问题。

本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
这些方法的核心目标都是:
让模型'遗忘'指定知识,同时尽量不影响其它知识。
在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:
但重新训练模型成本非常高,因此提出:Machine Unlearning
即:让模型有选择地忘记某些知识,而不影响其他能力。
在多模态模型中,这件事更困难,因为:
因此出现了多种 Unlearning 方法。
原文链接:[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
AUVIC 的目标是:
强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念
具体来说:在 target identity 上答错或 回答模糊;在非目标样本上保持正常回答

AUVIC 采用 min-max 对抗优化:
通过 LoRA 微调 来最小化 loss:
目标:降低 target identity 的识别能力
对输入图像添加扰动
目标:max loss,即生成最困难的样本。
增加 target identity 的预测 loss:logits ↑ → loss ↑
保证非目标样本的回答准确度
保证同一个人的视觉表示在扰动前后要一致
原文链接:[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models
不同模态输入会激活 不同的神经元子集
因此可以 剪枝负责 Forget 数据的神经元
计算不同模态下的神经元指标:
1️⃣
差异越大 → 越可能是模态专属神经元
2️⃣
差异越大 → 模态专属
3️⃣
方差越大 → 信息承载能力越强
4️⃣
用于惩罚无脑常亮的神经元
其中:
= Retain dataset
= Forget dataset
通过计算选取最大的神经元作为selected neurons
在 selected neurons 上:
mask = 0
后续推理中永久生效。
模型中的知识通常沿着 神经元路径(neuron path)传播
因此 找到关键路径并进行编辑
通过 Integrated Gradient 找到关键神经元:
IGI(w) 表示各层的选取神经元对文本输出的影响。
IFI(z) 表示各层的选取神经元对视觉输出的影响。
因为:
神经元对任务的影响可能是非线性的
在某一点梯度可能为 0 或负值,但在此之前的梯度都很大,都能展现出强相关性
因此需要从
到
逐步累积梯度才能真实反映神经元影响。

逐层寻找:
可以满足
的神经元加入现有路径。
编辑关键路径对应参数
Loss 设计:
以这个 Loss 为损失,只解冻(更新)'关键路径所在的目标层中,与该路径神经元通道直接相关的极少量参数,基本就是一个参数矩阵的一行,和另一个参数矩阵的一列
其中:
1️⃣
在'保留数据'上,新模型的输出行为仍然是一个正常的语言模型
2️⃣
在中间层形成的隐藏层表示,必须长得像一个随机噪声向量
3️⃣
在保留集上:新模型在中间层的表示,必须和原模型几乎一模一样
中间隐藏层表示:像随机噪声
在保留数据上:新模型 ≈ 原模型
通过 向隐藏层添加方向向量:
将模型行为从 knowledge recall 转变为 knowledge erasure

使用:
构造能唤起 Recall 行为的输入,得到:
使用:
构造能唤起 Refusal 行为的输入,得到:
表示:
从 recall 到 refusal 的方向。
其中:
保留与遗忘任务相关的子空间
判断是否触发 erasure
最终修改隐藏层:
如果
则添加 d_erase
如果:
则保持不变

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online