VLM Unlearning 核心方法综述
在多模态大模型(Vision-Language Model)的落地过程中,我们常面临一个棘手的问题:如何精准删除模型中的特定知识(如隐私数据、不安全概念),同时不破坏模型整体的理解与生成能力?
重新训练成本太高,于是 Machine Unlearning 应运而生。它的核心目标很明确:让模型'遗忘'指定内容,同时尽量不影响其他知识。
但在多模态场景下,由于视觉和文本特征高度耦合,单纯微调容易伤及无辜。目前业界主要探索了四条技术路线:AUVIC、Neuron Pruning、Neuron Path Editing 以及 MLLM Eraser。
背景:为什么需要 Unlearning
在 VLM 应用中,我们可能需要:
- 删除用户隐私数据
- 移除不安全或有害知识
- 符合 GDPR 等法规要求
难点在于知识分布在视觉 + 文本双模态中,且相互纠缠。因此,我们需要更精细的方法论。
AUVIC:对抗性视觉概念遗忘
论文链接:AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
核心思想
AUVIC 的核心在于强迫模型在最困难的情况下学会抑制目标,而不影响相邻概念。简单来说,就是让模型在目标身份上答错或模糊回答,而在非目标样本上保持正常。
方法结构
该方法采用 min-max 对抗优化策略,公式如下:
$$ \min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big] $$
这里涉及三个关键角色:
- θ (Vision Tower):通过 LoRA 微调来最小化 Loss,目标是降低 target identity 的识别能力。
- ϕ (Generator):对输入图像添加扰动,目标是最大化 Loss,即生成最困难的样本。
- Loss 设计:
- Forget Loss:增加 target identity 的预测 loss(logits ↑ → loss ↑)。
- Prediction Consistency Loss:保证非目标样本的回答准确度。 $$ \mathcal{L}{p} = \left| \mathrm{logits}{\mathrm{before}}(x_{t}) - \mathrm{logits}{\mathrm{after}}(x{t}) \right|_{2}^{2} $$
- Representation Consistency:保证同一个人的视觉表示在扰动前后要一致。 $$ \mathcal{L}{c} = \mathrm{KL}\Big(p{\theta}(\cdot\mid G(x;\phi ))\ \Big|\ p_{\theta}(\cdot\mid x)\Big) $$
优势
- 不破坏相邻概念
- 对抗训练鲁棒性强
- 特别适用于人脸隐私删除场景
Neuron Pruning:感知模态的神经元剪枝
论文链接:Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models
核心思想
不同模态的输入会激活不同的神经元子集。既然知道哪些神经元负责 Forget 数据,那直接剪掉它们不就完了?


