VLM Unlearning 技术路线论文总结

前言

本文整理了当前多模态大模型（VLM）中常见的 Unlearning 技术路线，主要包括：

AUVIC
Neuron Pruning
Neuron Path Editing
MLLM Eraser

这些方法的核心目标都是：

让模型'遗忘'指定知识，同时尽量不影响其它知识。

一、什么是 Unlearning

在多模态大模型（Vision-Language Model / VLA）中，我们经常需要：

删除隐私数据
移除不安全知识
删除特定人物或敏感概念
符合法规（GDPR）

但重新训练模型成本非常高，因此提出：Machine Unlearning

即：让模型有选择地忘记某些知识，而不影响其他能力。

在多模态模型中，这件事更困难，因为：

知识分布在视觉 + 文本两个模态
多模态特征高度耦合
单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。

二、AUVIC

论文：AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models (arXiv:2511.11299)

1. 核心思想

AUVIC 的目标是：

强迫模型在最困难情况下学会只抑制目标，而不影响相邻概念

具体来说：在 target identity 上答错或回答模糊；在非目标样本上保持正常回答

2. 方法结构

AUVIC 采用min-max 对抗优化：

$$ \min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big] $$

θ (Vision Tower)

通过LoRA 微调来最小化 loss：

目标：降低 target identity 的识别能力

ϕ (Generator)

对输入图像添加扰动

目标：max loss，即生成最困难的样本。

Loss

1️⃣ Forget Loss

$$ \mathcal{L}{f} = \log p{\theta}(y^{*}\mid x_{t}) $$

增加 target identity 的预测 loss：logits ↑ → loss ↑

2️⃣ Prediction Consistency Loss

$$ \mathcal{L}{p} = \left| \mathrm{logits}{\mathrm{before}}(x_{t}) - \mathrm{logits}{\mathrm{after}}(x{t}) \right|_{2}^{2} $$

保证非目标样本的回答准确度

VLM Unlearning 技术路线论文总结

前言

一、什么是 Unlearning

二、AUVIC

1. 核心思想

2. 方法结构

θ (Vision Tower)

ϕ (Generator)

Loss

1️⃣ Forget Loss

2️⃣ Prediction Consistency Loss

3️⃣ Representation Consistency

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 方法优势

三、Neuron Pruning

1. 核心思想

2. 方法步骤

Step1：检测模态偏置神经元

激活强度差

激活频率差

激活方差

RMS 指标

Step2：计算 Forget Score

Step3：部署 Mask

3. 方法优势

四、Neuron Path Editing

1. 核心思想

2. 方法步骤

Step1：路径定位

Q：为什么要累积梯度？

Step2：构建关键路径

Step3：RMisU Path Editing

Forget 目标

Retain 目标

3. 方法优势

五、MLLM Eraser

1. 核心思想

2. 方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

Refusal 行为（不管怎么样模型都无法正常回答问题）

Step2：计算 Erasure Direction

Step3：学习线性门控函数

P 的作用

W 的作用

Step4：输入感知 Steering

方法优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具