前言
本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
- AUVIC
- Neuron Pruning
- Neuron Path Editing
- MLLM Eraser
这些方法的核心目标都是:
让模型'遗忘'指定知识,同时尽量不影响其它知识。
一、什么是 Unlearning
在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:
- 删除隐私数据
- 移除不安全知识
- 删除特定人物或敏感概念
- 符合法规(GDPR)
但重新训练模型成本非常高,因此提出:Machine Unlearning
即:让模型有选择地忘记某些知识,而不影响其他能力。
在多模态模型中,这件事更困难,因为:
- 知识分布在视觉 + 文本两个模态
- 多模态特征高度耦合
- 单纯 finetune 容易破坏模型能力
因此出现了多种 Unlearning 方法。
二、AUVIC
原文链接:[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models (arxiv.org)
1. 核心思想
AUVIC 的目标是:
强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念
具体来说:在 target identity 上答错或回答模糊;在非目标样本上保持正常回答
2. 方法结构
AUVIC 采用min-max 对抗优化:
\min_{\theta} \max_{\phi} \mathbb{E}_{x\sim\mathcal{D}}\Big[ \mathcal{L}_{f} + \lambda \mathcal{L}_{p} + \beta \mathcal{L}_{c} \Big]
θ (Vision Tower)
通过LoRA 微调来最小化 loss:
目标:降低 target identity 的识别能力
ϕ (Generator)
对输入图像添加扰动
目标:max loss,即生成最困难的样本。
Loss
1️⃣ Forget Loss
\mathcal{L}_{f} = \log p_{\theta}(y^{*}\mid x_{t})
增加 target identity 的预测 loss:logits ↑ → loss ↑
2️⃣ Prediction Consistency Loss
\mathcal{L}_{p} = \left\| \mathrm{logits}_{\mathrm{before}}(x_{t}) - \mathrm{logits}_{\mathrm{after}}(x_{t}) \right\|_{2}^{2}


