VLM Unlearning 技术路线论文阅读总结与梳理

前言

本文整理了当前多模态大模型（VLM）中常见的 Unlearning 技术路线，主要包括：

AUVIC
Neuron Pruning
Neuron Path Editing
MLLM Eraser

这些方法的核心目标都是：

让模型'遗忘'指定知识，同时尽量不影响其它知识。

一、什么是 Unlearning

在多模态大模型（Vision-Language Model / VLA）中，我们经常需要：

删除隐私数据
移除不安全知识
删除特定人物或敏感概念
符合法规（GDPR）

但重新训练模型成本非常高，因此提出：Machine Unlearning

即：让模型有选择地忘记某些知识，而不影响其他能力。

在多模态模型中，这件事更困难，因为：

知识分布在视觉 + 文本两个模态
多模态特征高度耦合
单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。

二、AUVIC

原文链接：[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

1. 核心思想

AUVIC 的目标是：

强迫模型在最困难情况下学会只抑制目标，而不影响相邻概念

具体来说：在 target identity 上答错或 回答模糊；在非目标样本上保持正常回答

2. 方法结构

文章配图

AUVIC 采用 min-max 对抗优化：

$\min_{{\theta}} \max_{{\phi}} \mathbb{{E}}{{x\sim\mathcal{{D}}}}\Big[ \mathcal{{L}}{{f}} + \lambda \mathcal{{L}}{{p}} + \beta \mathcal{{L}}{{c}} \Big]$

θ (Vision Tower)

通过 LoRA 微调 来最小化 loss：

目标：降低 target identity 的识别能力

VLM Unlearning 技术路线论文阅读总结与梳理

前言

一、什么是 Unlearning

二、AUVIC

1. 核心思想

2. 方法结构

θ (Vision Tower)

ϕ (Generator)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Loss

1️⃣ Forget Loss

2️⃣ Prediction Consistency Loss

3️⃣ Representation Consistency

3. 方法优势

三、Neuron Pruning

1. 核心思想

2. 方法步骤

Step1：检测模态偏置神经元

激活强度差

激活频率差

激活方差

RMS 指标

Step2：计算 Forget Score

Step3：部署 Mask

3. 方法优势

四、 Neuron Path Editing

1. 核心思想

2. 方法步骤

Step1：路径定位

Q：为什么要累积梯度？

Step2：构建关键路径

Step3：RMisU Path Editing

Forget 目标

Retain 目标

3. 方法优势

五、 MLLM Eraser

1. 核心思想

2. 方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

Refusal 行为（不管怎么样模型都无法正常回答问题）

Step2：计算 Erasure Direction

Step3：学习线性门控函数

P 的作用

W 的作用

Step4：输入感知 Steering

方法优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具