前言
本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
- AUVIC
- Neuron Pruning
- Neuron Path Editing
- MLLM Eraser
这些方法的核心目标都是:
让模型'遗忘'指定知识,同时尽量不影响其它知识。
一、什么是 Unlearning
在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:
- 删除隐私数据
- 移除不安全知识
- 删除特定人物或敏感概念
- 符合法规(GDPR)
但重新训练模型成本非常高,因此提出:Machine Unlearning
即:让模型有选择地忘记某些知识,而不影响其他能力。
在多模态模型中,这件事更困难,因为:
- 知识分布在视觉 + 文本两个模态
- 多模态特征高度耦合
- 单纯 finetune 容易破坏模型能力
因此出现了多种 Unlearning 方法。
二、AUVIC
原文链接:[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
1. 核心思想
AUVIC 的目标是:
强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念
具体来说:在 target identity 上答错或回答模糊;在非目标样本上保持正常回答
2. 方法结构
![\min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big]](https://qiniu.meowparty.cn/coder.2023/2026-04-05/d9f9f50745f9421a8e8353759cc9bf8e.png)
AUVIC 采用min-max 对抗优化:
![\min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big]](https://qiniu.meowparty.cn/coder.2023/2026-04-05/eq)
θ (Vision Tower)
通过LoRA 微调来最小化 loss:
目标:降低 target identity 的识别能力
ϕ (Generator)
对输入图像添加扰动
目标:max loss,即生成最困难的样本。
Loss
1️⃣ Forget Loss

增加 target identity 的预测 loss:logits ↑ → loss ↑
2️⃣ Prediction Consistency Loss

保证非目标样本的回答准确度
3️⃣ Representation Consistency

保证同一个人的视觉表示在扰动前后要一致
3. 方法优势
三、Neuron Pruning
原文链接:[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models
1. 核心思想
不同模态输入会激活不同的神经元子集
因此可以剪枝负责 Forget 数据的神经元
2. 方法步骤
Step1:检测模态偏置神经元
计算不同模态下的神经元指标:
激活强度差
1️⃣

差异越大 → 越可能是模态专属神经元
激活频率差
2️⃣

差异越大 → 模态专属
激活方差
3️⃣

方差越大 → 信息承载能力越强
RMS 指标
4️⃣

用于惩罚无脑常亮的神经元
Step2:计算 Forget Score

其中:


= Retain dataset
= Forget dataset
通过计算选取最大的神经元作为selected neurons
Step3:部署 Mask
在 selected neurons 上:
mask = 0
后续推理中永久生效。
3. 方法优势
四、Neuron Path Editing
原文链接:[2511.06793] Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models
1. 核心思想
模型中的知识通常沿着神经元路径(neuron path)传播
因此找到关键路径并进行编辑
2. 方法步骤
Step1:路径定位
通过Integrated Gradient找到关键神经元:

IGI(w) 表示各层的选取神经元对文本输出的影响。

IFI(z) 表示各层的选取神经元对视觉输出的影响。
Q:为什么要累积梯度?
因为:
神经元对任务的影响可能是非线性的
在某一点梯度可能为 0 或负值,但在此之前的梯度都很大,都能展现出强相关性
因此需要从

到

逐步累积梯度才能真实反映神经元影响。
Step2:构建关键路径

逐层寻找:
可以满足

的神经元加入现有路径。
Step3:RMisU Path Editing
编辑关键路径对应参数
Loss 设计:

以这个 Loss 为损失,只解冻(更新)'关键路径所在的目标层中,与该路径神经元通道直接相关的极少量参数,基本就是一个参数矩阵的一行,和另一个参数矩阵的一列
其中:
1️⃣
![\mathcal{L}{\text{retain}} = \mathbb{E}{(x^r, y^r) \in D^r} \left[ -\sum_{i=1}^{|y^r|} \log P_{M_{\theta^*}}(y_i^r \mid x^r, y_{<i}^r) \right]](https://qiniu.meowparty.cn/coder.2023/2026-04-05/eq)
在'保留数据'上,新模型的输出行为仍然是一个正常的语言模型
2️⃣

在中间层形成的隐藏层表示,必须长得像一个随机噪声向量
3️⃣

在保留集上:新模型在中间层的表示,必须和原模型几乎一模一样
Forget 目标
中间隐藏层表示:像随机噪声
Retain 目标
在保留数据上:新模型 ≈ 原模型
3. 方法优势
五、MLLM Eraser
原文链接:[2510.04217] MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering
1. 核心思想
通过向隐藏层添加方向向量:
将模型行为从knowledge recall转变为knowledge erasure
2. 方法步骤

Step1:构造两类输入
Recall 行为(模型还能被尝试着唤醒对问题的正确回答)
使用:
- jailbreak prompt
- adversarial image
构造能唤起 Recall 行为的输入,得到:

Refusal 行为(不管怎么样模型都无法正常回答问题)
使用:
- clean image
- blocked prompt
构造能唤起 Refusal 行为的输入,得到:

Step2:计算 Erasure Direction
![d_{\text{erase}} = \mathbb{E}!\left[h_{\text{refusal}}\right] - \mathbb{E}!\left[h_{\text{recall}}\right]](https://qiniu.meowparty.cn/coder.2023/2026-04-05/eq)
表示:
从 recall 到 refusal 的方向。
Step3:学习线性门控函数


其中:

P 的作用
保留与遗忘任务相关的子空间
W 的作用
判断是否触发 erasure
Step4:输入感知 Steering
最终修改隐藏层:

如果

则添加 d_erase
如果:

则保持不变
方法优势