VLM Unlearning 有关论文阅读总结与梳理

Ne0inhk

22 Mar 2026 — 8 min read

文章目录

四、 Neuron Path Editing

五、 MLLM Eraser

前言

本文整理了当前多模态大模型（VLM）中常见的 Unlearning 技术路线，主要包括：

AUVIC
Neuron Pruning
Neuron Path Editing
MLLM Eraser

这些方法的核心目标都是：

让模型“遗忘”指定知识，同时尽量不影响其它知识。

一、什么是 Unlearning

在多模态大模型（Vision-Language Model / VLA）中，我们经常需要：

删除隐私数据
移除不安全知识
删除特定人物或敏感概念
符合法规（GDPR）

但重新训练模型成本非常高，因此提出：Machine Unlearning

即：让模型有选择地忘记某些知识，而不影响其他能力。

在多模态模型中，这件事更困难，因为：

知识分布在视觉 + 文本两个模态
多模态特征高度耦合
单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。

二、AUVIC

原文链接：[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

1.核心思想

AUVIC 的目标是：

强迫模型在最困难情况下学会只抑制目标，而不影响相邻概念

具体来说：在 target identity 上答错或 回答模糊；在非目标样本上保持正常回答

2.方法结构

AUVIC 采用 min-max 对抗优化：

\min_{\theta}\ \max_{\phi}\ \mathbb{E}_{x\sim\mathcal{D}}\Big[ \mathcal{L}_{f} + \lambda \mathcal{L}_{p} + \beta \mathcal{L}_{c} \Big]

θ (Vision Tower)

通过 LoRA 微调 来最小化 loss：

目标：降低 target identity 的识别能力

ϕ (Generator)

对输入图像添加扰动

目标：max loss，即生成最困难的样本。

Loss

1️⃣ Forget Loss

\mathcal{L}_{f} = \log p_{\theta}(y^{*}\mid x_{t})

增加 target identity 的预测 loss：logits ↑ → loss ↑

2️⃣ Prediction Consistency Loss

\mathcal{L}_{p} = \left\| \mathrm{logits}_{\mathrm{before}}(x_{t}) - \mathrm{logits}_{\mathrm{after}}(x_{t}) \right\|_{2}^{2}

保证非目标样本的回答准确度

3️⃣ Representation Consistency

\mathcal{L}_{c} = \mathrm{KL}\Big(p_{\theta}(\cdot\mid G(x;\phi ))\ \Big\|\ p_{\theta}(\cdot\mid x)\Big)

保证同一个人的视觉表示在扰动前后要一致

3.方法优势

不破坏相邻概念
对抗训练鲁棒
可用于人脸隐私删除

三、Neuron Pruning

原文链接：[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models

1.核心思想

不同模态输入会激活 不同的神经元子集

因此可以 剪枝负责 Forget 数据的神经元

2.方法步骤

Step1：检测模态偏置神经元

计算不同模态下的神经元指标：

激活强度差

1️⃣

差异越大 → 越可能是模态专属神经元

激活频率差

2️⃣

差异越大 → 模态专属

激活方差

3️⃣

方差越大 → 信息承载能力越强

RMS 指标

4️⃣

用于惩罚无脑常亮的神经元

Step2：计算 Forget Score

S_{n}=\frac{I(D_{f},n)}{I(D_{r},n)+\epsilon}

其中：

\mathcal{I}(\mathcal{D}, n) := \sum_{k \in \mathcal{K}} I_k(\mathcal{D}, n)

\mathcal{K} = \{I_{\text{abs}}, I_{\text{freq}}, I_{\text{var}}, I_{\text{rms}}\}

= Retain dataset

= Forget dataset

通过计算选取最大的神经元作为selected neurons

Step3：部署 Mask

在 selected neurons 上：

mask = 0

后续推理中永久生效。

3.方法优势

无需重新训练
计算效率高
可解释性强

四、 Neuron Path Editing

原文链接：[2511.06793] Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

1.核心思想

模型中的知识通常沿着 神经元路径（neuron path）传播

因此 找到关键路径并进行编辑

2.方法步骤

Step1：路径定位

通过 Integrated Gradient 找到关键神经元：

\text{IGI}(\mathbf{w}) = \sum_{j=1}^N \tilde{w}_{i_j}^n \sum_{k=1}^m \sum_{l=1}^N \frac{\partial F_T\left(\frac{k}{m}\alpha_{i_1}^1, \dots, \frac{k}{m}\alpha_{i_N}^N\right)}{\partial w_{i_l}^l}

IGI(w) 表示各层的选取神经元对文本输出的影响。

\text{IFI}(\mathbf{z}) = \sum_{n=1}^N \tilde{z}_{i_n}^n \sum_{k=1}^m \sum_{l=1}^N \left(\frac{\partial \mathbf{G}\left(\frac{k}{m}\beta_{i_1}^1, \dots, \frac{k}{m}\beta_{i_N}^N\right)}{\partial z_{i_l}^l}\right)^2

IFI(z) 表示各层的选取神经元对视觉输出的影响。

Q：为什么要累积梯度？

因为：

神经元对任务的影响可能是非线性的

在某一点梯度可能为0或负值，但在此之前的梯度都很大，都能展现出强相关性

因此需要从

到

逐步累积梯度才能真实反映神经元影响。

Step2：构建关键路径

逐层寻找：

可以满足

的神经元加入现有路径。

Step3：RMisU Path Editing

编辑关键路径对应参数

Loss 设计：

\mathcal{L} = \mathcal{L}_{\text{retain}} + \mathcal{L}^{f}_{\text{RMisU}} + \gamma \mathcal{L}^{r}_{\text{RMisU}}

以这个Loss为损失，只解冻（更新）“关键路径所在的目标层中，与该路径神经元通道直接相关的极少量参数，基本就是一个参数矩阵的一行，和另一个参数矩阵的一列

其中：

1️⃣

\mathcal{L}_{\text{retain}} = \mathbb{E}_{(x^r, y^r) \in D^r} \left[ -\sum_{i=1}^{|y^r|} \log P_{M_{\theta^*}}(y_i^r \mid x^r, y_{<i}^r) \right]

在“保留数据”上，新模型的输出行为仍然是一个正常的语言模型

2️⃣

\mathcal{L}^{f}_{\text{RMisU}} = \mathbb{E}_{x^f \in D^f} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^f) - \mathbf{v}^f \right\|_2^2

在中间层形成的隐藏层表示，必须长得像一个随机噪声向量

3️⃣

\mathcal{L}^{r}_{\text{RMisU}} = \mathbb{E}_{x^r \in D^r} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^r) - \mathbf{h}^{(l)}_{M_\theta}(x^r) \right\|_2^2

在保留集上：新模型在中间层的表示，必须和原模型几乎一模一样

Forget目标

中间隐藏层表示：像随机噪声

Retain目标

在保留数据上：新模型 ≈ 原模型

3.方法优势

精确编辑知识
参数修改极少
保留模型能力

五、 MLLM Eraser

原文链接：[2510.04217] MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

1.核心思想

通过 向隐藏层添加方向向量：

将模型行为从 knowledge recall 转变为 knowledge erasure

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

使用：

jailbreak prompt
adversarial image

构造能唤起 Recall 行为的输入，得到：

Refusal 行为（不管怎么样模型都无法正常回答问题）

使用：

clean image
blocked prompt

构造能唤起 Refusal 行为的输入，得到：

Step2：计算 Erasure Direction

d_{\text{erase}} = \mathbb{E}\!\left[h_{\text{refusal}}\right] - \mathbb{E}\!\left[h_{\text{recall}}\right]

表示：

从 recall 到 refusal 的方向。

Step3：学习线性门控函数

f(\mathbf{h}) = \mathbf{W} \mathbf{P} \mathbf{h}

\mathbf{W}^* := \arg\min_{\mathbf{W}} \left( \|\mathbf{W} \mathbf{P} \mathbf{H}_f - \mathbf{D}\| + \gamma \|\mathbf{W} \mathbf{P}\| \right)

其中：

P \in \mathbb{R}^{d \times d}, \quad W \in \mathbb{R}^{1 \times d}, \quad D \in \mathbb{R}^{1 \times N_f}

P：投影矩阵
W：映射矩阵

P 的作用

保留与遗忘任务相关的子空间

W 的作用

判断是否触发 erasure

Step4：输入感知 Steering

最终修改隐藏层：

\tilde{h}^{(\ell)} = h^{(\ell)} + \lambda W P h^{(\ell)}

如果

则添加 d_erase

如果：

则保持不变

方法优势

不需要重新训练
推理阶段可控
支持输入感知

前言

一、什么是 Unlearning

二、AUVIC

1.核心思想

2.方法结构

θ (Vision Tower)

ϕ (Generator)

Loss

1️⃣ Forget Loss

2️⃣ Prediction Consistency Loss

3️⃣ Representation Consistency

3.方法优势

三、Neuron Pruning

1.核心思想

2.方法步骤

Step1：检测模态偏置神经元

激活强度差

激活频率差

激活方差

RMS 指标

Step2：计算 Forget Score

Step3：部署 Mask

3.方法优势

四、 Neuron Path Editing

1.核心思想

2.方法步骤

Step1：路径定位

Q：为什么要累积梯度？

Step2：构建关键路径

Step3：RMisU Path Editing

Forget目标

Retain目标

3.方法优势

五、 MLLM Eraser

1.核心思想

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

Refusal 行为（不管怎么样模型都无法正常回答问题）

Step2：计算 Erasure Direction

Step3：学习线性门控函数

P 的作用

W 的作用

Step4：输入感知 Steering

方法优势

Read more

《MySQL 表基础语法：从入门到熟练的核心技巧》

Spring Boot 4.0 与 Spring Cloud Alibaba 2025 整合完整指南

Docker 安装 OpenClaw 报错排查:如何解决Gateway auth is set to token, but no token is configured``Missing config

Spring AI 接入与简单使用：从环境搭建到多轮对话（JDK 17 + Spring Boot 3.5）