VLM Unlearning 有关论文阅读总结与梳理
文章目录
目录
前言
本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
- AUVIC
- Neuron Pruning
- Neuron Path Editing
- MLLM Eraser
这些方法的核心目标都是:
让模型“遗忘”指定知识,同时尽量不影响其它知识。
一、什么是 Unlearning
在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:
- 删除隐私数据
- 移除不安全知识
- 删除特定人物或敏感概念
- 符合法规(GDPR)
但重新训练模型成本非常高,因此提出:Machine Unlearning
即:让模型有选择地忘记某些知识,而不影响其他能力。
在多模态模型中,这件事更困难,因为:
- 知识分布在视觉 + 文本两个模态
- 多模态特征高度耦合
- 单纯 finetune 容易破坏模型能力
因此出现了多种 Unlearning 方法。
二、AUVIC
原文链接:[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
1.核心思想
AUVIC 的目标是:
强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念
具体来说:在 target identity 上答错或 回答模糊;在非目标样本上保持正常回答
2.方法结构

AUVIC 采用 min-max 对抗优化:
θ (Vision Tower)
通过 LoRA 微调 来最小化 loss:
目标:降低 target identity 的识别能力
ϕ (Generator)
对输入图像添加扰动
目标:max loss,即生成最困难的样本。
Loss
1️⃣ Forget Loss
增加 target identity 的预测 loss:logits ↑ → loss ↑
2️⃣ Prediction Consistency Loss
保证非目标样本的回答准确度
3️⃣ Representation Consistency
保证同一个人的视觉表示在扰动前后要一致
3.方法优势
- 不破坏相邻概念
- 对抗训练鲁棒
- 可用于人脸隐私删除
三、Neuron Pruning
原文链接:[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models
1.核心思想
不同模态输入会激活 不同的神经元子集
因此可以 剪枝负责 Forget 数据的神经元
2.方法步骤
Step1:检测模态偏置神经元
计算不同模态下的神经元指标:
激活强度差
1️⃣
差异越大 → 越可能是模态专属神经元
激活频率差
2️⃣
差异越大 → 模态专属
激活方差
3️⃣
方差越大 → 信息承载能力越强
RMS 指标
4️⃣
用于惩罚无脑常亮的神经元
Step2:计算 Forget Score
其中:
= Retain dataset
= Forget dataset
通过计算选取最大的神经元作为selected neurons
Step3:部署 Mask
在 selected neurons 上:
mask = 0
后续推理中永久生效。
3.方法优势
- 无需重新训练
- 计算效率高
- 可解释性强
四、 Neuron Path Editing
1.核心思想
模型中的知识通常沿着 神经元路径(neuron path)传播
因此 找到关键路径并进行编辑
2.方法步骤
Step1:路径定位
通过 Integrated Gradient 找到关键神经元:
IGI(w) 表示各层的选取神经元对文本输出的影响。
IFI(z) 表示各层的选取神经元对视觉输出的影响。
Q:为什么要累积梯度?
因为:
神经元对任务的影响可能是非线性的
在某一点梯度可能为0或负值,但在此之前的梯度都很大,都能展现出强相关性
因此需要从
到
逐步累积梯度才能真实反映神经元影响。
Step2:构建关键路径

逐层寻找:
可以满足
的神经元加入现有路径。
Step3:RMisU Path Editing
编辑关键路径对应参数
Loss 设计:
以这个Loss为损失,只解冻(更新)“关键路径所在的目标层中,与该路径神经元通道直接相关的极少量参数,基本就是一个参数矩阵的一行,和另一个参数矩阵的一列
其中:
1️⃣
在“保留数据”上,新模型的输出行为仍然是一个正常的语言模型
2️⃣
在中间层形成的隐藏层表示,必须长得像一个随机噪声向量
3️⃣
在保留集上:新模型在中间层的表示,必须和原模型几乎一模一样
Forget目标
中间隐藏层表示:像随机噪声
Retain目标
在保留数据上:新模型 ≈ 原模型
3.方法优势
- 精确编辑知识
- 参数修改极少
- 保留模型能力
五、 MLLM Eraser
1.核心思想
通过 向隐藏层添加方向向量:
将模型行为从 knowledge recall 转变为 knowledge erasure
2.方法步骤

Step1:构造两类输入
Recall 行为(模型还能被尝试着唤醒对问题的正确回答)
使用:
- jailbreak prompt
- adversarial image
构造能唤起 Recall 行为的输入,得到:
Refusal 行为(不管怎么样模型都无法正常回答问题)
使用:
- clean image
- blocked prompt
构造能唤起 Refusal 行为的输入,得到:
Step2:计算 Erasure Direction
表示:
从 recall 到 refusal 的方向。
Step3:学习线性门控函数
其中:
- P:投影矩阵
- W:映射矩阵
P 的作用
保留与遗忘任务相关的子空间
W 的作用
判断是否触发 erasure
Step4:输入感知 Steering
最终修改隐藏层:
如果
则添加 d_erase
如果:
则保持不变
方法优势
- 不需要重新训练
- 推理阶段可控
- 支持输入感知