前言
本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
VLM Unlearning 旨在让多模态大模型选择性遗忘特定知识而不影响其他能力。主要技术包括 AUVIC 对抗优化、Neuron Pruning 神经元剪枝、Neuron Path Editing 路径编辑及 MLLM Eraser 激活引导。这些方法通过最小化遗忘损失、计算模态偏置指标、定位关键神经元路径或添加方向向量实现目标遗忘。核心挑战在于平衡遗忘效果与保留模型原有性能,适用于隐私数据删除、敏感概念移除及合规需求。

本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
这些方法的核心目标都是:
让模型'遗忘'指定知识,同时尽量不影响其它知识。
在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:
但重新训练模型成本非常高,因此提出:Machine Unlearning
即:让模型有选择地忘记某些知识,而不影响其他能力。
在多模态模型中,这件事更困难,因为:
因此出现了多种 Unlearning 方法。
AUVIC 的目标是:
强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念
具体来说:在 target identity 上答错或回答模糊;在非目标样本上保持正常回答
AUVIC 采用min-max 对抗优化:
通过LoRA 微调来最小化 loss:
目标:降低 target identity 的识别能力
对输入图像添加扰动
目标:max loss,即生成最困难的样本。
增加 target identity 的预测 loss:logits ↑ → loss ↑
保证非目标样本的回答准确度
保证同一个人的视觉表示在扰动前后要一致
不同模态输入会激活不同的神经元子集
因此可以剪枝负责 Forget 数据的神经元
计算不同模态下的神经元指标:
差异越大 → 越可能是模态专属神经元
差异越大 → 模态专属
方差越大 → 信息承载能力越强
用于惩罚无脑常亮的神经元
其中:
= Retain dataset
= Forget dataset
通过计算选取最大的神经元作为selected neurons
在 selected neurons 上:
mask = 0
后续推理中永久生效。
模型中的知识通常沿着神经元路径(neuron path)传播
因此找到关键路径并进行编辑
通过Integrated Gradient找到关键神经元:
IGI(w) 表示各层的选取神经元对文本输出的影响。
IFI(z) 表示各层的选取神经元对视觉输出的影响。
因为:
神经元对任务的影响可能是非线性的
在某一点梯度可能为 0 或负值,但在此之前的梯度都很大,都能展现出强相关性
因此需要从
到
逐步累积梯度才能真实反映神经元影响。
逐层寻找:
可以满足
的神经元加入现有路径。
编辑关键路径对应参数
Loss 设计:
以这个 Loss 为损失,只解冻(更新)'关键路径所在的目标层中,与该路径神经元通道直接相关的极少量参数,基本就是一个参数矩阵的一行,和另一个参数矩阵的一列'
其中:
1️⃣
在'保留数据'上,新模型的输出行为仍然是一个正常的语言模型
2️⃣
在中间层形成的隐藏层表示,必须长得像一个随机噪声向量
3️⃣
在保留集上:新模型在中间层的表示,必须和原模型几乎一模一样
中间隐藏层表示:像随机噪声
在保留数据上:新模型 ≈ 原模型
通过向隐藏层添加方向向量:
将模型行为从knowledge recall转变为knowledge erasure
使用:
构造能唤起 Recall 行为的输入,得到:
使用:
构造能唤起 Refusal 行为的输入,得到:
表示:
从 recall 到 refusal 的方向。
其中:
保留与遗忘任务相关的子空间
判断是否触发 erasure
最终修改隐藏层:
如果
则添加 d_erase
如果:
则保持不变

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online