前言
本文整理了当前多模态大模型(VLM)中常见的 Unlearning 技术路线,主要包括:
- AUVIC
- Neuron Pruning
- Neuron Path Editing
- MLLM Eraser
这些方法的核心目标都是:
让模型'遗忘'指定知识,同时尽量不影响其它知识。
一、什么是 Unlearning
在多模态大模型(Vision-Language Model / VLA)中,我们经常需要:
- 删除隐私数据
- 移除不安全知识
- 删除特定人物或敏感概念
- 符合法规(GDPR)
但重新训练模型成本非常高,因此提出:Machine Unlearning
即:让模型有选择地忘记某些知识,而不影响其他能力。
在多模态模型中,这件事更困难,因为:
- 知识分布在视觉 + 文本两个模态
- 多模态特征高度耦合
- 单纯 finetune 容易破坏模型能力
因此出现了多种 Unlearning 方法。
二、AUVIC
原文链接:[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
1. 核心思想
AUVIC 的目标是:
强迫模型在最困难情况下学会只抑制目标,而不影响相邻概念
具体来说:在 target identity 上答错或 回答模糊;在非目标样本上保持正常回答
2. 方法结构

AUVIC 采用 min-max 对抗优化:
θ (Vision Tower)
通过 LoRA 微调 来最小化 loss:
目标:降低 target identity 的识别能力




