VLM Unlearning 核心方法综述：从对抗遗忘到神经元编辑

VLM Unlearning 核心方法综述

在多模态大模型（Vision-Language Model）的落地过程中，我们常面临一个棘手的问题：如何精准删除模型中的特定知识（如隐私数据、不安全概念），同时不破坏模型整体的理解与生成能力？

重新训练成本太高，于是 Machine Unlearning 应运而生。它的核心目标很明确：让模型'遗忘'指定内容，同时尽量不影响其他知识。

但在多模态场景下，由于视觉和文本特征高度耦合，单纯微调容易伤及无辜。目前业界主要探索了四条技术路线：AUVIC、Neuron Pruning、Neuron Path Editing 以及 MLLM Eraser。

背景：为什么需要 Unlearning

在 VLM 应用中，我们可能需要：

删除用户隐私数据
移除不安全或有害知识
符合 GDPR 等法规要求

难点在于知识分布在视觉 + 文本双模态中，且相互纠缠。因此，我们需要更精细的方法论。

AUVIC：对抗性视觉概念遗忘

论文链接：AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

核心思想

AUVIC 的核心在于强迫模型在最困难的情况下学会抑制目标，而不影响相邻概念。简单来说，就是让模型在目标身份上答错或模糊回答，而在非目标样本上保持正常。

方法结构

该方法采用 min-max 对抗优化策略，公式如下：

$$ \min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big] $$

这里涉及三个关键角色：

θ (Vision Tower)：通过 LoRA 微调来最小化 Loss，目标是降低 target identity 的识别能力。
ϕ (Generator)：对输入图像添加扰动，目标是最大化 Loss，即生成最困难的样本。
Loss 设计：
- Forget Loss：增加 target identity 的预测 loss（logits ↑ → loss ↑）。
- Prediction Consistency Loss：保证非目标样本的回答准确度。 $$ \mathcal{L}{p} = \left| \mathrm{logits}{\mathrm{before}}(x_{t}) - \mathrm{logits}{\mathrm{after}}(x{t}) \right|_{2}^{2} $$
- Representation Consistency：保证同一个人的视觉表示在扰动前后要一致。 $$ \mathcal{L}{c} = \mathrm{KL}\Big(p{\theta}(\cdot\mid G(x;\phi ))\ \Big|\ p_{\theta}(\cdot\mid x)\Big) $$

优势

不破坏相邻概念
对抗训练鲁棒性强
特别适用于人脸隐私删除场景

Neuron Pruning：感知模态的神经元剪枝

论文链接：Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models

核心思想

不同模态的输入会激活不同的神经元子集。既然知道哪些神经元负责 Forget 数据，那直接剪掉它们不就完了？

VLM Unlearning 核心方法综述：从对抗遗忘到神经元编辑