跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

VLM Unlearning 技术路线论文梳理

综述由AI生成总结了多模态大模型(VLM)中的四种 Unlearning 技术路线:AUVIC、Neuron Pruning、Neuron Path Editing 和 MLLM Eraser。核心目标是让模型有选择地遗忘特定知识(如隐私数据、不安全概念),同时保持其他能力不受影响。AUVIC 采用对抗优化抑制目标;Neuron Pruning 通过剪枝模态专属神经元实现;Neuron Path Editing 定位关键路径并编辑参数;MLLM Eraser 利用激活导向在推理阶段实现遗忘。这些方法旨在解决重新训练成本高的问题,提升模型合规性与安全性。

孤勇者发布于 2026/4/5更新于 2026/5/2434 浏览
VLM Unlearning 技术路线论文梳理

前言

本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:

  • AUVIC
  • Neuron Pruning
  • Neuron Path Editing
  • MLLM Eraser

这些方法的核心目标都是:

让模型'遗忘'指定知识,同时尽量不影响其它知识。


一、什么是 Unlearning

在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:

  • 删除隐私数据
  • 移除不安全知识
  • 删除特定人物或敏感概念
  • 符合法规(GDPR)

但重新训练模型成本非常高,因此提出:Machine Unlearning

即:让模型有选择地忘记某些知识,而不影响其他能力。

在多模态模型中,这件事更困难,因为:

  • 知识分布在视觉 + 文本两个模态
  • 多模态特征高度耦合
  • 单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。


二、AUVIC

原文链接:[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

1. 核心思想

AUVIC 的目标是:

强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念

具体来说:在 target identity 上答错或回答模糊;在非目标样本上保持正常回答

2. 方法结构

\min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big]

AUVIC 采用min-max 对抗优化:

\min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big]

θ (Vision Tower)

通过LoRA 微调来最小化 loss:

目标:降低 target identity 的识别能力

ϕ (Generator)

对输入图像添加扰动

目标:max loss,即生成最困难的样本。

Loss
1️⃣ Forget Loss

\mathcal{L}{f} = \log p{\theta}(y^{*}\mid x_{t})

增加 target identity 的预测 loss:logits ↑ → loss ↑

2️⃣ Prediction Consistency Loss

\mathcal{L}{p} = \left| \mathrm{logits}{\mathrm{before}}(x_{t}) - \mathrm{logits}{\mathrm{after}}(x{t}) \right|_{2}^{2}

保证非目标样本的回答准确度

3️⃣ Representation Consistency

\mathcal{L}{c} = \mathrm{KL}\Big(p{\theta}(\cdot\mid G(x;\phi ))\ \Big|\ p_{\theta}(\cdot\mid x)\Big)

保证同一个人的视觉表示在扰动前后要一致

3. 方法优势

  • 不破坏相邻概念
  • 对抗训练鲁棒
  • 可用于人脸隐私删除

三、Neuron Pruning

原文链接:[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models

1. 核心思想

不同模态输入会激活不同的神经元子集

因此可以剪枝负责 Forget 数据的神经元

2. 方法步骤

Step1:检测模态偏置神经元

计算不同模态下的神经元指标:

激活强度差

1️⃣

I_{\mathrm{abs}}(D,n)

差异越大 → 越可能是模态专属神经元

激活频率差

2️⃣

I_{\mathrm{freq}}(D,n)

差异越大 → 模态专属

激活方差

3️⃣

I_{\mathrm{var}}(D,n)

方差越大 → 信息承载能力越强

RMS 指标

4️⃣

I_{\mathrm{rms}}(D,n)

用于惩罚无脑常亮的神经元

Step2:计算 Forget Score

S_{n}=\frac{I(D_{f},n)}{I(D_{r},n)+\epsilon}

其中:

\mathcal{I}(\mathcal{D}, n) := \sum_{k \in \mathcal{K}} I_k(\mathcal{D}, n)

\mathcal{K} = {I_{\text{abs}}, I_{\text{freq}}, I_{\text{var}}, I_{\text{rms}}}

D_r = Retain dataset

D_f = Forget dataset

通过计算选取最大的神经元作为selected neurons

Step3:部署 Mask

在 selected neurons 上:

mask = 0

后续推理中永久生效。

3. 方法优势

  • 无需重新训练
  • 计算效率高
  • 可解释性强

四、Neuron Path Editing

原文链接:[2511.06793] Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

1. 核心思想

模型中的知识通常沿着神经元路径(neuron path)传播

因此找到关键路径并进行编辑

2. 方法步骤

Step1:路径定位

通过Integrated Gradient找到关键神经元:

\text{IGI}(\mathbf{w}) = \sum_{j=1}^N \tilde{w}{i_j}^n \sum{k=1}^m \sum_{l=1}^N \frac{\partial F_T\left(\frac{k}{m}\alpha_{i_1}^1, \dots, \frac{k}{m}\alpha_{i_N}^N\right)}{\partial w_{i_l}^l}

IGI(w) 表示各层的选取神经元对文本输出的影响。

\text{IFI}(\mathbf{z}) = \sum_{n=1}^N \tilde{z}{i_n}^n \sum{k=1}^m \sum_{l=1}^N \left(\frac{\partial \mathbf{G}\left(\frac{k}{m}\beta_{i_1}^1, \dots, \frac{k}{m}\beta_{i_N}^N\right)}{\partial z_{i_l}^l}\right)^2

IFI(z) 表示各层的选取神经元对视觉输出的影响。

Q:为什么要累积梯度?

因为:

神经元对任务的影响可能是非线性的

在某一点梯度可能为 0 或负值,但在此之前的梯度都很大,都能展现出强相关性

因此需要从

\frac{1}{m}\alpha

到

\alpha

逐步累积梯度才能真实反映神经元影响。

Step2:构建关键路径

图片

逐层寻找:

可以满足

max(IGI / IFI)

的神经元加入现有路径。

Step3:RMisU Path Editing

编辑关键路径对应参数

Loss 设计:

\mathcal{L} = \mathcal{L}{\text{retain}} + \mathcal{L}^{f}{\text{RMisU}} + \gamma \mathcal{L}^{r}_{\text{RMisU}}

以这个 Loss 为损失,只解冻(更新)'关键路径所在的目标层中,与该路径神经元通道直接相关的极少量参数,基本就是一个参数矩阵的一行,和另一个参数矩阵的一列

其中:

1️⃣

\mathcal{L}{\text{retain}} = \mathbb{E}{(x^r, y^r) \in D^r} \left[ -\sum_{i=1}^{|y^r|} \log P_{M_{\theta^*}}(y_i^r \mid x^r, y_{<i}^r) \right]

在'保留数据'上,新模型的输出行为仍然是一个正常的语言模型

2️⃣

\mathcal{L}^{f}{\text{RMisU}} = \mathbb{E}{x^f \in D^f} \left| \mathbf{h}^{(l)}{M{\theta^*}}(x^f) - \mathbf{v}^f \right|_2^2

在中间层形成的隐藏层表示,必须长得像一个随机噪声向量

3️⃣

\mathcal{L}^{r}{\text{RMisU}} = \mathbb{E}{x^r \in D^r} \left| \mathbf{h}^{(l)}{M{\theta^*}}(x^r) - \mathbf{h}^{(l)}{M{\theta}}(x^r) \right|_2^2

在保留集上:新模型在中间层的表示,必须和原模型几乎一模一样

Forget 目标

中间隐藏层表示:像随机噪声

Retain 目标

在保留数据上:新模型 ≈ 原模型

3. 方法优势

  • 精确编辑知识
  • 参数修改极少
  • 保留模型能力

五、MLLM Eraser

原文链接:[2510.04217] MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

1. 核心思想

通过向隐藏层添加方向向量:

将模型行为从knowledge recall转变为knowledge erasure

2. 方法步骤

图片

Step1:构造两类输入
Recall 行为(模型还能被尝试着唤醒对问题的正确回答)

使用:

  • jailbreak prompt
  • adversarial image

构造能唤起 Recall 行为的输入,得到:

h^{(i)}_{\text{recall}} = h(I'_i, Q'_i)

Refusal 行为(不管怎么样模型都无法正常回答问题)

使用:

  • clean image
  • blocked prompt

构造能唤起 Refusal 行为的输入,得到:

h^{(j)}_{\text{refusal}} = h(I_j, Q_j)

Step2:计算 Erasure Direction

d_{\text{erase}} = \mathbb{E}!\left[h_{\text{refusal}}\right] - \mathbb{E}!\left[h_{\text{recall}}\right]

表示:

从 recall 到 refusal 的方向。

Step3:学习线性门控函数

f(\mathbf{h}) = \mathbf{W} \mathbf{P} \mathbf{h}

\mathbf{W}^* := \arg\min_{\mathbf{W}} \left( |\mathbf{W} \mathbf{P} \mathbf{H}_f - \mathbf{D}| + \gamma |\mathbf{W} \mathbf{P}| \right)

其中:

P \in \mathbb{R}^{d \times d}, \quad W \in \mathbb{R}^{1 \times d}, \quad D \in \mathbb{R}^{1 \times N_f}

  • P:投影矩阵
  • W:映射矩阵
P 的作用

保留与遗忘任务相关的子空间

W 的作用

判断是否触发 erasure

Step4:输入感知 Steering

最终修改隐藏层:

\tilde{h}^{(\ell)} = h^{(\ell)} + \lambda W P h^{(\ell)}

如果

h \approx h_{\text{recall}}

则添加 d_erase

如果:

h \approx h_{\text{refusal}}

则保持不变

方法优势

  • 不需要重新训练
  • 推理阶段可控
  • 支持输入感知

目录

  1. 前言
  2. 一、什么是 Unlearning
  3. 二、AUVIC
  4. 1. 核心思想
  5. 2. 方法结构
  6. θ (Vision Tower)
  7. ϕ (Generator)
  8. Loss
  9. 1️⃣ Forget Loss
  10. 2️⃣ Prediction Consistency Loss
  11. 3️⃣ Representation Consistency
  12. 3. 方法优势
  13. 三、Neuron Pruning
  14. 1. 核心思想
  15. 2. 方法步骤
  16. Step1:检测模态偏置神经元
  17. 激活强度差
  18. 激活频率差
  19. 激活方差
  20. RMS 指标
  21. Step2:计算 Forget Score
  22. Step3:部署 Mask
  23. 3. 方法优势
  24. 四、Neuron Path Editing
  25. 1. 核心思想
  26. 2. 方法步骤
  27. Step1:路径定位
  28. Q:为什么要累积梯度?
  29. Step2:构建关键路径
  30. Step3:RMisU Path Editing
  31. Forget 目标
  32. Retain 目标
  33. 3. 方法优势
  34. 五、MLLM Eraser
  35. 1. 核心思想
  36. 2. 方法步骤
  37. Step1:构造两类输入
  38. Recall 行为(模型还能被尝试着唤醒对问题的正确回答)
  39. Refusal 行为(不管怎么样模型都无法正常回答问题)
  40. Step2:计算 Erasure Direction
  41. Step3:学习线性门控函数
  42. P 的作用
  43. W 的作用
  44. Step4:输入感知 Steering
  45. 方法优势
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • OpenClaw 多机器人团队协作搭建指南
  • Flutter 组件 tavily_dart 在鸿蒙系统的适配与进阶应用
  • Vivado 中实现 LVDS 串行通信的设计流程
  • 前端文件上传处理:提升用户体验与性能
  • XXHash64:非加密哈希算法的速度与架构解析
  • LangGraph 工具调用实战:实现 ReAct 搜索机器人
  • 转行Python的实践与思考
  • 多模态大模型 Llama 3.2 正式发布,支持视觉推理与边缘部署
  • Web 自动化测试入门:核心概念与 Selenium 实战指南
  • OpenClaw 接入飞书机器人与 Kimi K2.5 配置指南
  • LangChain Agent 基础入门:LLM 外部工具调用
  • 前端 PWA 技术详解:离线缓存与推送通知实现
  • 医疗大模型 LoRA 微调实战指南
  • Cesium 无人机智能航线规划:航点动作组与 AI 识别
  • 2026 年前端跨端框架选型指南:Flutter、RN 与 uni-app 深度对比
  • C++关联式容器详解:map、set与unordered_map的原理与应用
  • Z-Image-Turbo Sugar 脸部 LoRA 模型部署与提示词指南
  • 论文 AI 率多少算正常?各高校 AIGC 检测标准汇总
  • 2026 Java 学习路线:核心、云原生与 AI 工程化实战
  • 基于遗传算法优化非奇异快速终端滑模与 RBF 的四旋翼无人机故障容错控制

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online