ICCV 2023 CleanCLIP:消除多模态对比学习中的数据中毒攻击
1. 引言
多模态对比预训练技术已在大规模成对的图像 - 文本数据上取得了显著成功,代表性模型如 CLIP(Contrastive Language-Image Pre-training)。这类模型通过学习将图像和文本映射到统一的嵌入空间,实现了强大的零样本分类能力。然而,随着深度学习在安全敏感领域的应用日益广泛,其鲁棒性成为关键问题。近期研究表明,此类基于对比学习的模型极易受到后门攻击(Backdoor Attacks)的影响。
具体而言,攻击者只需在训练数据中注入极少量的中毒样本(例如在 300 万条预训练数据中仅加入 75 个示例),即可通过植入特定的触发器(Trigger)来操纵模型行为。被污染的 CLIP 模型会学习到嵌入的后门触发器与目标标签之间的虚假相关性,导致在联合嵌入空间中错误地对齐它们的表示。这种攻击具有隐蔽性强、难以检测且一旦植入便难以通过常规手段取消学习的特点。
为了解决这一严峻的安全挑战,ICCV 2023 提出了CleanCLIP 微调框架。该框架的核心思想是通过独立重新对齐各个模态的表示,削弱由后门攻击引入的学习到的虚假关联。研究证明,使用针对各个模态的多模态对比目标和单模态自监督目标的组合进行无监督微调,可以显著降低后门攻击的影响。此外,若拥有特定任务的标记图像数据,仅需对视觉编码器进行监督微调即可彻底消除 CLIP 中的后门触发器。CleanCLIP 能够在保持模型在良性示例上性能的同时,有效防御多模态对比学习中的一系列后门攻击。
2. 研究动机与背景分析
尽管多模态对比学习在表征学习上取得了巨大成功,但其安全性并未得到充分保障。最近的研究揭示了这些模型在面对对抗性攻击时的脆弱性。
2.1 后门攻击机制
攻击者通过将专门的触发器注入到随机选择的图像中,或者用目标标签的代理标题替换其匹配的标题,甚至仅对一小部分预训练数据进行毒害,即可实施后门攻击。例如,在 300 万个训练样本中仅污染 75 个样本,将其中的'一张照片'修改为带有特定触发器的'香蕉',就能导致严重的后门效应。
在对中毒数据进行预训练期间,模型通过使中毒图像的表示(即包含后门触发器的图像)接近包含目标标签的匹配标题的文本表示,来最小化多模态对比损失。因此,CLIP 模型学会了图像中后门触发器的存在与标题中的目标标签之间的多模态虚假共现。这种虚假共现使得模型在推理时,只要检测到触发器,就会强制输出目标类别,无论图像实际内容为何。
2.2 视觉表现分析
当预训练的 CLIP 模型用于下游应用(如图像分类)时,这种虚假共现的副作用变得尤为明显。对中毒 CLIP 学习到的视觉表示进行分析发现,模型在嵌入空间中将所有中毒图像聚集在一起,形成了一个独立的聚类簇。相比之下,在干净数据上预训练的 CLIP 模型的视觉表示分布更为均匀。
量化数据显示,干净图像的表示与其中毒模型的中毒对应图像之间的平均距离为 1.62,而在干净数据上预训练的 CLIP 模型的视觉表示之间的距离仅为 0.4。这表明中毒样本在特征空间中发生了显著的偏移,形成了明显的异常模式,这既是攻击成功的证据,也是检测潜在威胁的依据。
3. CleanCLIP 方法详解
为了减轻多模态对比学习中数据中毒攻击的影响,CleanCLIP 提出了一种通过对干净图像字幕数据进行微调来消除预训练 CLIP 模型中后门的框架。
3.1 核心见解
CleanCLIP 背后的核心见解是:独立于其他模态学习每种模态的表示可以打破后门触发器和目标标签之间的虚假相关性。
传统的对比学习强制要求图像和文本表示在嵌入空间中彼此靠近,这恰恰为后门攻击提供了通道——攻击者利用这一约束将触发器与标签绑定。CleanCLIP 通过在干净的配对图像文本数据集 $D_{fine-tune}$ 上微调预训练的 CLIP 来实现解耦。由于框架寻求独立于其他模态来对齐每种模态的表示,因此将多模态对比损失与图像和文本的自监督学习(SSL)目标结合起来。
3.2 优化目标
具体来说,在一个由 N 个对应图像和文本对组成的批次中,自监督目标强制执行每种模态的表示及其各自的增强版本在嵌入空间中彼此非常接近。相比之下,批次中任意两对的表示则被推得更远。这种机制鼓励模型关注模态内部的语义一致性,而不是模态间的虚假关联。
CleanCLIP 的微调目标正式定义为多模态对比损失与自监督损失的加权和。通过这种方式,模型在保留原有知识的同时,修正了因中毒数据导致的错误对齐。
3.3 实验设置
3.3.1 数据集与预训练
实验在概念字幕 3M (CC3M) 数据集上进行了 CLIP 模型的预训练。虽然已知对 CC3M 等网络规模数据集进行毒害是切实可行的,但假设在 2022 年 1 月下载的 CC3M 版本是干净的。尽管 CC3M 的大小小于原始 CLIP 模型使用的 4 亿对数据,但它适合存储和计算资源,并已被多项语言图像预训练研究采用作为基准。
3.3.2 攻击配置
实验研究了多种具有可见触发器的后门攻击(如 BadNet),以及不可见触发器(如 Blended 和 WaNet)。由于所有先前的攻击都会更改相关的目标标签,可以通过目视检查轻松检测到它们。因此,文中还探索了标签一致性攻击,其中与后门图像相关的标题保持不变,这使得攻击更加隐蔽。


