VLM Unlearning 有关论文阅读总结与梳理

优质文章学习记录

09 Apr 2026 — 8 min read

文章目录

四、 Neuron Path Editing

五、 MLLM Eraser

前言

本文整理了当前多模态大模型（VLM）中常见的 Unlearning 技术路线，主要包括：

AUVIC
Neuron Pruning
Neuron Path Editing
MLLM Eraser

这些方法的核心目标都是：

让模型“遗忘”指定知识，同时尽量不影响其它知识。

一、什么是 Unlearning

在多模态大模型（Vision-Language Model / VLA）中，我们经常需要：

删除隐私数据
移除不安全知识
删除特定人物或敏感概念
符合法规（GDPR）

但重新训练模型成本非常高，因此提出：Machine Unlearning

即：让模型有选择地忘记某些知识，而不影响其他能力。

在多模态模型中，这件事更困难，因为：

知识分布在视觉 + 文本两个模态
多模态特征高度耦合
单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。

二、AUVIC

原文链接：[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

1.核心思想

AUVIC 的目标是：

强迫模型在最困难情况下学会只抑制目标，而不影响相邻概念

具体来说：在 target identity 上答错或 回答模糊；在非目标样本上保持正常回答

2.方法结构

AUVIC 采用 min-max 对抗优化：

\min_{\theta}\ \max_{\phi}\ \mathbb{E}_{x\sim\mathcal{D}}\Big[ \mathcal{L}_{f} + \lambda \mathcal{L}_{p} + \beta \mathcal{L}_{c} \Big]

θ (Vision Tower)

通过 LoRA 微调 来最小化 loss：

目标：降低 target identity 的识别能力

ϕ (Generator)

对输入图像添加扰动

目标：max loss，即生成最困难的样本。

Loss

1️⃣ Forget Loss

\mathcal{L}_{f} = \log p_{\theta}(y^{*}\mid x_{t})

增加 target identity 的预测 loss：logits ↑ → loss ↑

2️⃣ Prediction Consistency Loss

\mathcal{L}_{p} = \left\| \mathrm{logits}_{\mathrm{before}}(x_{t}) - \mathrm{logits}_{\mathrm{after}}(x_{t}) \right\|_{2}^{2}

保证非目标样本的回答准确度

3️⃣ Representation Consistency

\mathcal{L}_{c} = \mathrm{KL}\Big(p_{\theta}(\cdot\mid G(x;\phi ))\ \Big\|\ p_{\theta}(\cdot\mid x)\Big)

保证同一个人的视觉表示在扰动前后要一致

3.方法优势

不破坏相邻概念
对抗训练鲁棒
可用于人脸隐私删除

三、Neuron Pruning

原文链接：[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models

1.核心思想

不同模态输入会激活 不同的神经元子集

因此可以 剪枝负责 Forget 数据的神经元

2.方法步骤

Step1：检测模态偏置神经元

计算不同模态下的神经元指标：

激活强度差

1️⃣

差异越大 → 越可能是模态专属神经元

激活频率差

2️⃣

差异越大 → 模态专属

激活方差

3️⃣

方差越大 → 信息承载能力越强

RMS 指标

4️⃣

用于惩罚无脑常亮的神经元

Step2：计算 Forget Score

S_{n}=\frac{I(D_{f},n)}{I(D_{r},n)+\epsilon}

其中：

\mathcal{I}(\mathcal{D}, n) := \sum_{k \in \mathcal{K}} I_k(\mathcal{D}, n)

\mathcal{K} = \{I_{\text{abs}}, I_{\text{freq}}, I_{\text{var}}, I_{\text{rms}}\}

= Retain dataset

= Forget dataset

通过计算选取最大的神经元作为selected neurons

Step3：部署 Mask

在 selected neurons 上：

mask = 0

后续推理中永久生效。

3.方法优势

无需重新训练
计算效率高
可解释性强

四、 Neuron Path Editing

原文链接：[2511.06793] Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

1.核心思想

模型中的知识通常沿着 神经元路径（neuron path）传播

因此 找到关键路径并进行编辑

2.方法步骤

Step1：路径定位

通过 Integrated Gradient 找到关键神经元：

\text{IGI}(\mathbf{w}) = \sum_{j=1}^N \tilde{w}_{i_j}^n \sum_{k=1}^m \sum_{l=1}^N \frac{\partial F_T\left(\frac{k}{m}\alpha_{i_1}^1, \dots, \frac{k}{m}\alpha_{i_N}^N\right)}{\partial w_{i_l}^l}

IGI(w) 表示各层的选取神经元对文本输出的影响。

\text{IFI}(\mathbf{z}) = \sum_{n=1}^N \tilde{z}_{i_n}^n \sum_{k=1}^m \sum_{l=1}^N \left(\frac{\partial \mathbf{G}\left(\frac{k}{m}\beta_{i_1}^1, \dots, \frac{k}{m}\beta_{i_N}^N\right)}{\partial z_{i_l}^l}\right)^2

IFI(z) 表示各层的选取神经元对视觉输出的影响。

Q：为什么要累积梯度？

因为：

神经元对任务的影响可能是非线性的

在某一点梯度可能为0或负值，但在此之前的梯度都很大，都能展现出强相关性

因此需要从

到

逐步累积梯度才能真实反映神经元影响。

Step2：构建关键路径

逐层寻找：

可以满足

的神经元加入现有路径。

Step3：RMisU Path Editing

编辑关键路径对应参数

Loss 设计：

\mathcal{L} = \mathcal{L}_{\text{retain}} + \mathcal{L}^{f}_{\text{RMisU}} + \gamma \mathcal{L}^{r}_{\text{RMisU}}

以这个Loss为损失，只解冻（更新）“关键路径所在的目标层中，与该路径神经元通道直接相关的极少量参数，基本就是一个参数矩阵的一行，和另一个参数矩阵的一列

其中：

1️⃣

\mathcal{L}_{\text{retain}} = \mathbb{E}_{(x^r, y^r) \in D^r} \left[ -\sum_{i=1}^{|y^r|} \log P_{M_{\theta^*}}(y_i^r \mid x^r, y_{<i}^r) \right]

在“保留数据”上，新模型的输出行为仍然是一个正常的语言模型

2️⃣

\mathcal{L}^{f}_{\text{RMisU}} = \mathbb{E}_{x^f \in D^f} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^f) - \mathbf{v}^f \right\|_2^2

在中间层形成的隐藏层表示，必须长得像一个随机噪声向量

3️⃣

\mathcal{L}^{r}_{\text{RMisU}} = \mathbb{E}_{x^r \in D^r} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^r) - \mathbf{h}^{(l)}_{M_\theta}(x^r) \right\|_2^2

在保留集上：新模型在中间层的表示，必须和原模型几乎一模一样

Forget目标

中间隐藏层表示：像随机噪声

Retain目标

在保留数据上：新模型 ≈ 原模型

3.方法优势

精确编辑知识
参数修改极少
保留模型能力

五、 MLLM Eraser

原文链接：[2510.04217] MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

1.核心思想

通过 向隐藏层添加方向向量：

将模型行为从 knowledge recall 转变为 knowledge erasure

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

使用：

jailbreak prompt
adversarial image

构造能唤起 Recall 行为的输入，得到：

Refusal 行为（不管怎么样模型都无法正常回答问题）

使用：

clean image
blocked prompt

构造能唤起 Refusal 行为的输入，得到：

Step2：计算 Erasure Direction

d_{\text{erase}} = \mathbb{E}\!\left[h_{\text{refusal}}\right] - \mathbb{E}\!\left[h_{\text{recall}}\right]

表示：

从 recall 到 refusal 的方向。

Step3：学习线性门控函数

f(\mathbf{h}) = \mathbf{W} \mathbf{P} \mathbf{h}

\mathbf{W}^* := \arg\min_{\mathbf{W}} \left( \|\mathbf{W} \mathbf{P} \mathbf{H}_f - \mathbf{D}\| + \gamma \|\mathbf{W} \mathbf{P}\| \right)

其中：

P \in \mathbb{R}^{d \times d}, \quad W \in \mathbb{R}^{1 \times d}, \quad D \in \mathbb{R}^{1 \times N_f}

P：投影矩阵
W：映射矩阵

P 的作用

保留与遗忘任务相关的子空间

W 的作用

判断是否触发 erasure

Step4：输入感知 Steering

最终修改隐藏层：

\tilde{h}^{(\ell)} = h^{(\ell)} + \lambda W P h^{(\ell)}

如果

则添加 d_erase

如果：

则保持不变

方法优势

不需要重新训练
推理阶段可控
支持输入感知

基于改进YOLO11-ASF-P2的多旋翼无人机检测识别系统_红外航拍目标检测算法优化_1

1. 基于改进YOLO11-ASF-P2的多旋翼无人机检测识别系统 🚁 随着无人机技术的飞速发展，多旋翼无人机在军事、民用和商业领域的应用日益广泛。然而，这也带来了安全隐患和管理挑战。本文将介绍一种基于改进YOLO11-ASF-P2的红外航拍目标检测算法优化方案，用于多旋翼无人机的检测识别系统。 1.1. 红外航拍目标检测的挑战 📡 红外航拍目标检测面临着诸多挑战，包括： 1. 小目标检测：无人机在远距离航拍时往往呈现为小目标，传统检测算法难以准确识别。 2. 背景复杂：航拍图像通常包含大量复杂背景，如建筑物、树木等，容易干扰目标检测。 3. 尺度变化：无人机在不同高度和角度拍摄时，目标尺寸变化较大。 4. 光照条件：红外成像受光照条件影响较小，但仍存在噪声和模糊问题。传统目标检测算法在这些挑战面前表现不佳，因此我们需要改进YOLO11-ASF-P2算法，以适应红外航拍场景下的无人机检测任务。 1.2. YOLO11-ASF-P2算法概述 🧠 YOLO11-ASF-P2是一种基于YOLOv11的目标检测算法，结合了自适应特征融合(ASF)和P2尺度采样

vivado2023.2下载安装教程：手把手教你完成FPGA开发环境搭建

手把手带你搞定 Vivado 2023.2 安装：从零搭建专业级 FPGA 开发环境你是不是也曾在准备开启 FPGA 学习之旅时，被那个动辄十几GB的安装包卡在第一步？下载慢、权限报错、许可证激活失败、GUI闪退……明明只是想点个“下一步”，却仿佛在破解一道嵌入式系统的“入门密钥”。别担心，这并不是你的问题。Vivado —— 这款由 AMD（原 Xilinx）推出的旗舰级 FPGA 开发工具，功能强大毋庸置疑，但它的安装过程确实称得上“劝退新手三连”：体积大、依赖多、流程长。而今天我们要攻克的目标，就是 Vivado 2023.2 —— 一个兼具稳定性与前沿支持的长期候选版本（LTS），特别适合用于教学、科研和工业项目开发。本文将彻底拆解“vivado2023.2下载安装教程”这一高频搜索关键词背后的真实痛点，用工程师视角带你一步步完成从账号注册到环境验证的全过程，

OpenClaw 集成飞书机器人：从入门到精通

OpenClaw 集成飞书机器人：从入门到精通作者：你的智能助手发布时间： 2026-03-11 标签： #OpenClaw #飞书机器人 #自动化 #AIGC 📋 目录 1. 前言 2. 什么是 OpenClaw 3. 前期准备 4. 飞书应用创建与授权 5. OpenClaw 环境搭建 6. 飞书插件配置详解 7. 核心功能实战 8. 进阶技巧与最佳实践 9. 常见问题排查 10. 总结与展望前言在当今的数字化办公环境中，企业通讯工具已经成为日常协作的核心。飞书作为国内领先的企业协同平台，其强大的 API 生态为开发者提供了广阔的创作空间。而 OpenClaw 作为一个创新的 AI 代理框架，能够让你轻松地将大语言模型的能力接入到飞书中，实现真正的智能化办公。本文将带你从零开始，

别再被忽悠！云计算+低代码，才是企业转型的真解药

作为从业7年的IT互联网产品技术，我对接过数十家不同规模、不同行业的企业数字化转型项目，从中小型制造企业到大型政务单位，见过太多企业陷入“转型怪圈”：要么砸重金上云，却只做到“数据上云=转型完成”，核心业务流程依旧脱节；要么盲目跟风低代码，被厂商“3天开发一套系统”的宣传忽悠，最后只做出一堆无法复用、无法扩展的“无用表单”；更有甚者，将云计算与低代码割裂开来，各自为战，导致技术架构混乱、成本翻倍，转型半途而废。今天不唱赞歌、不聊虚的，纯技术流视角拆解核心逻辑：企业转型的核心困境从来不是“缺技术”，而是“技术与业务脱节、效率与成本失衡、落地与迭代矛盾”；而云计算与低代码的深度协同，不是“锦上添花”，而是破解这些困境的唯一最优解——但前提是，你得看透二者的底层逻辑，避开行业里的那些坑，别再被厂商的虚假宣传带偏。一、先破后立：企业转型的4大核心技术困境在聊解决方案之前，我们先明确一个核心：企业数字化转型，本质是“用技术重构业务流程、用工具提升运营效率、

前言

一、什么是 Unlearning

二、AUVIC

1.核心思想

2.方法结构

θ (Vision Tower)

ϕ (Generator)

Loss

1️⃣ Forget Loss

2️⃣ Prediction Consistency Loss

3️⃣ Representation Consistency

3.方法优势

三、Neuron Pruning

1.核心思想

2.方法步骤

Step1：检测模态偏置神经元

激活强度差

激活频率差

激活方差

RMS 指标

Step2：计算 Forget Score

Step3：部署 Mask

3.方法优势

四、 Neuron Path Editing

1.核心思想

2.方法步骤

Step1：路径定位

Q：为什么要累积梯度？

Step2：构建关键路径

Step3：RMisU Path Editing

Forget目标

Retain目标

3.方法优势

五、 MLLM Eraser

1.核心思想

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

Refusal 行为（不管怎么样模型都无法正常回答问题）

Step2：计算 Erasure Direction

Step3：学习线性门控函数

P 的作用

W 的作用

Step4：输入感知 Steering

方法优势

Read more

基于改进YOLO11-ASF-P2的多旋翼无人机检测识别系统_红外航拍目标检测算法优化_1

vivado2023.2下载安装教程：手把手教你完成FPGA开发环境搭建

OpenClaw 集成飞书机器人：从入门到精通

别再被忽悠！云计算+低代码，才是企业转型的真解药