多模态大模型 VLM Unlearning 技术路线论文梳理 | 极客日志

编程语言AI算法

多模态大模型 VLM Unlearning 技术路线论文梳理

综述由AI生成总结了多模态大模型（VLM）中的四种 Unlearning 技术路线：AUVIC、Neuron Pruning、Neuron Path Editing 和 MLLM Eraser。核心目标是让模型有选择地遗忘特定知识（如隐私数据、不安全概念），同时保持其他能力不受影响。各方法分别采用对抗优化、神经元剪枝、路径编辑及激活导向等技术，在无需全量重训的前提下实现知识移除或抑制。

DotNetGuy发布于 2026/4/6更新于 2026/5/2030 浏览

前言

本文整理了当前多模态大模型（VLM）中常见的 Unlearning 技术路线，主要包括：

AUVIC
Neuron Pruning
Neuron Path Editing
MLLM Eraser

这些方法的核心目标都是：

让模型'遗忘'指定知识，同时尽量不影响其它知识。

一、什么是 Unlearning

在多模态大模型（Vision-Language Model / VLA）中，我们经常需要：

删除隐私数据
移除不安全知识
删除特定人物或敏感概念
符合法规（GDPR）

但重新训练模型成本非常高，因此提出：Machine Unlearning

即：让模型有选择地忘记某些知识，而不影响其他能力。

在多模态模型中，这件事更困难，因为：

知识分布在视觉 + 文本两个模态
多模态特征高度耦合
单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。

二、AUVIC

原文链接：[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models (arxiv.org)

1. 核心思想

AUVIC 的目标是：

强迫模型在最困难情况下学会只抑制目标，而不影响相邻概念

具体来说：在 target identity 上答错或回答模糊；在非目标样本上保持正常回答

2. 方法结构

AUVIC 采用min-max 对抗优化：

\min_{\theta} \max_{\phi} \mathbb{E}_{x\sim\mathcal{D}}\Big[ \mathcal{L}_{f} + \lambda \mathcal{L}_{p} + \beta \mathcal{L}_{c} \Big]

θ (Vision Tower)

通过LoRA 微调来最小化 loss：

目标：降低 target identity 的识别能力

ϕ (Generator)

对输入图像添加扰动

目标：max loss，即生成最困难的样本。

Loss

1️⃣ Forget Loss

\mathcal{L}_{f} = \log p_{\theta}(y^{*}\mid x_{t})

增加 target identity 的预测 loss：logits ↑ → loss ↑

2️⃣ Prediction Consistency Loss

\mathcal{L}_{p} = \left\| \mathrm{logits}_{\mathrm{before}}(x_{t}) - \mathrm{logits}_{\mathrm{after}}(x_{t}) \right\|_{2}^{2}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

\mathcal{L}_{c} = \mathrm{KL}\Big(p_{\theta}(\cdot\mid G(x;\phi ))\ \Big\|\ p_{\theta}(\cdot\mid x)\Big)

I_{\mathrm{abs}}(D,n)

I_{\mathrm{freq}}(D,n)

I_{\mathrm{var}}(D,n)

I_{\mathrm{rms}}(D,n)

S_{n}=\frac{I(D_{f},n)}{I(D_{r},n)+\epsilon}

\mathcal{I}(\mathcal{D}, n) := \sum_{k \in \mathcal{K}} I_k(\mathcal{D}, n)

\mathcal{K} = \{I_{\text{abs}}, I_{\text{freq}}, I_{\text{var}}, I_{\text{rms}}\}

D_r

D_f

\text{IGI}(\mathbf{w}) = \sum_{j=1}^N \tilde{w}_{i_j}^n \sum_{k=1}^m \sum_{l=1}^N \frac{\partial F_T\left(\frac{k}{m}\alpha_{i_1}^1, \dots, \frac{k}{m}\alpha_{i_N}^N\right)}{\partial w_{i_l}^l}

\text{IFI}(\mathbf{z}) = \sum_{n=1}^N \tilde{z}_{i_n}^n \sum_{k=1}^m \sum_{l=1}^N \left(\frac{\partial \mathbf{G}\left(\frac{k}{m}\beta_{i_1}^1, \dots, \frac{k}{m}\beta_{i_N}^N\right)}{\partial z_{i_l}^l}\right)^2

\frac{1}{m}\alpha

\alpha

\max(IGI / IFI)

\mathcal{L} = \mathcal{L}_{\text{retain}} + \mathcal{L}^{f}_{\text{RMisU}} + \gamma \mathcal{L}^{r}_{\text{RMisU}}

\mathcal{L}_{\text{retain}} = \mathbb{E}_{(x^r, y^r) \in D^r} \left[ -\sum_{i=1}^{|y^r|} \log P_{M_{\theta^*}}(y_i^r \mid x^r, y_{<i}^r) \right]

\mathcal{L}^{f}_{\text{RMisU}} = \mathbb{E}_{x^f \in D^f} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^f) - \mathbf{v}^f \right\|_2^2

\mathcal{L}^{r}_{\text{RMisU}} = \mathbb{E}_{x^r \in D^r} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^r) - \mathbf{h}^{(l)}_{M_{\theta}}(x^r) \right\|_2^2

h^{(i)}_{\text{recall}} = h(I'_i, Q'_i)

h^{(j)}_{\text{refusal}} = h(I_j, Q_j)

d_{\text{erase}} = \mathbb{E}\!\left[h_{\text{refusal}}\right] - \mathbb{E}\!\left[h_{\text{recall}}\right]

f(\mathbf{h}) = \mathbf{W} \mathbf{P} \mathbf{h}

\mathbf{W}^* := \arg\min_{\mathbf{W}} \left( \|\mathbf{W} \mathbf{P} \mathbf{H}_f - \mathbf{D}\| + \gamma \|\mathbf{W} \mathbf{P}\| \right)

P \in \mathbb{R}^{d \times d}, \quad W \in \mathbb{R}^{1 \times d}, \quad D \in \mathbb{R}^{1 \times N_f}

\tilde{h}^{(\ell)} = h^{(\ell)} + \lambda W P h^{(\ell)}

h \approx h_{\text{recall}}

h \approx h_{\text{refusal}}

多模态大模型 VLM Unlearning 技术路线论文梳理

前言

一、什么是 Unlearning

二、AUVIC

1. 核心思想

2. 方法结构

θ (Vision Tower)

ϕ (Generator)

Loss

1️⃣ Forget Loss

2️⃣ Prediction Consistency Loss

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3️⃣ Representation Consistency

3. 方法优势

三、Neuron Pruning

1. 核心思想

2. 方法步骤

Step1：检测模态偏置神经元

激活强度差

激活频率差

激活方差

RMS 指标

Step2：计算 Forget Score

Step3：部署 Mask

3. 方法优势

四、Neuron Path Editing

1. 核心思想

2. 方法步骤

Step1：路径定位

Q：为什么要累积梯度？

Step2：构建关键路径

Step3：RMisU Path Editing

Forget 目标

Retain 目标

3. 方法优势

五、MLLM Eraser

1. 核心思想

2. 方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

Refusal 行为（不管怎么样模型都无法正常回答问题）

Step2：计算 Erasure Direction

Step3：学习线性门控函数

P 的作用

W 的作用

Step4：输入感知 Steering

方法优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具