前言
本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
- AUVIC
- Neuron Pruning
- Neuron Path Editing
- MLLM Eraser
这些方法的核心目标都是:
让模型'遗忘'指定知识,同时尽量不影响其它知识。
一、什么是 Unlearning
在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:
- 删除隐私数据
- 移除不安全知识
- 删除特定人物或敏感概念
- 符合法规(GDPR)
但重新训练模型成本非常高,因此提出:Machine Unlearning
即:让模型有选择地忘记某些知识,而不影响其他能力。
在多模态模型中,这件事更困难,因为:
- 知识分布在视觉 + 文本两个模态
- 多模态特征高度耦合
- 单纯 finetune 容易破坏模型能力
因此出现了多种 Unlearning 方法。
二、AUVIC
原文链接:[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
1. 核心思想
AUVIC 的目标是:
强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念
具体来说:在 target identity 上答错或回答模糊;在非目标样本上保持正常回答
2. 方法结构
![\min_{\theta}\ \max_{\phi}\ \mathbb{E}{x\sim\mathcal{D}}\Big[ \mathcal{L}{f} + \lambda \mathcal{L}{p} + \beta \mathcal{L}{c} \Big]](https://qiniu.meowparty.cn/coder.2023/2026-04-05/d9f9f50745f9421a8e8353759cc9bf8e.png)
AUVIC 采用min-max 对抗优化:




