ICCV 2023 CleanCLIP:消除多模态对比学习中的数据中毒攻击
多模态对比预训练模型如 CLIP 易受数据中毒后门攻击影响,少量中毒样本即可导致模型行为被操纵。CleanCLIP 提出一种微调框架,通过独立对齐各模态表示并结合自监督学习目标,在干净数据上微调以消除虚假关联。实验显示该方法能显著降低攻击成功率,同时保持模型在 ImageNet-1K 上的零样本性能,为多模态模型安全部署提供了解决方案。

多模态对比预训练模型如 CLIP 易受数据中毒后门攻击影响,少量中毒样本即可导致模型行为被操纵。CleanCLIP 提出一种微调框架,通过独立对齐各模态表示并结合自监督学习目标,在干净数据上微调以消除虚假关联。实验显示该方法能显著降低攻击成功率,同时保持模型在 ImageNet-1K 上的零样本性能,为多模态模型安全部署提供了解决方案。

多模态对比预训练技术已在大规模成对的图像 - 文本数据上取得了显著成功,代表性模型如 CLIP(Contrastive Language-Image Pre-training)。这类模型通过学习将图像和文本映射到统一的嵌入空间,实现了强大的零样本分类能力。然而,随着深度学习在安全敏感领域的应用日益广泛,其鲁棒性成为关键问题。近期研究表明,此类基于对比学习的模型极易受到后门攻击(Backdoor Attacks)的影响。
具体而言,攻击者只需在训练数据中注入极少量的中毒样本(例如在 300 万条预训练数据中仅加入 75 个示例),即可通过植入特定的触发器(Trigger)来操纵模型行为。被污染的 CLIP 模型会学习到嵌入的后门触发器与目标标签之间的虚假相关性,导致在联合嵌入空间中错误地对齐它们的表示。这种攻击具有隐蔽性强、难以检测且一旦植入便难以通过常规手段取消学习的特点。
为了解决这一严峻的安全挑战,ICCV 2023 提出了CleanCLIP 微调框架。该框架的核心思想是通过独立重新对齐各个模态的表示,削弱由后门攻击引入的学习到的虚假关联。研究证明,使用针对各个模态的多模态对比目标和单模态自监督目标的组合进行无监督微调,可以显著降低后门攻击的影响。此外,若拥有特定任务的标记图像数据,仅需对视觉编码器进行监督微调即可彻底消除 CLIP 中的后门触发器。CleanCLIP 能够在保持模型在良性示例上性能的同时,有效防御多模态对比学习中的一系列后门攻击。
尽管多模态对比学习在表征学习上取得了巨大成功,但其安全性并未得到充分保障。最近的研究揭示了这些模型在面对对抗性攻击时的脆弱性。
攻击者通过将专门的触发器注入到随机选择的图像中,或者用目标标签的代理标题替换其匹配的标题,甚至仅对一小部分预训练数据进行毒害,即可实施后门攻击。例如,在 300 万个训练样本中仅污染 75 个样本,将其中的'一张照片'修改为带有特定触发器的'香蕉',就能导致严重的后门效应。
在对中毒数据进行预训练期间,模型通过使中毒图像的表示(即包含后门触发器的图像)接近包含目标标签的匹配标题的文本表示,来最小化多模态对比损失。因此,CLIP 模型学会了图像中后门触发器的存在与标题中的目标标签之间的多模态虚假共现。这种虚假共现使得模型在推理时,只要检测到触发器,就会强制输出目标类别,无论图像实际内容为何。
当预训练的 CLIP 模型用于下游应用(如图像分类)时,这种虚假共现的副作用变得尤为明显。对中毒 CLIP 学习到的视觉表示进行分析发现,模型在嵌入空间中将所有中毒图像聚集在一起,形成了一个独立的聚类簇。相比之下,在干净数据上预训练的 CLIP 模型的视觉表示分布更为均匀。
量化数据显示,干净图像的表示与其中毒模型的中毒对应图像之间的平均距离为 1.62,而在干净数据上预训练的 CLIP 模型的视觉表示之间的距离仅为 0.4。这表明中毒样本在特征空间中发生了显著的偏移,形成了明显的异常模式,这既是攻击成功的证据,也是检测潜在威胁的依据。
为了减轻多模态对比学习中数据中毒攻击的影响,CleanCLIP 提出了一种通过对干净图像字幕数据进行微调来消除预训练 CLIP 模型中后门的框架。
CleanCLIP 背后的核心见解是:独立于其他模态学习每种模态的表示可以打破后门触发器和目标标签之间的虚假相关性。
传统的对比学习强制要求图像和文本表示在嵌入空间中彼此靠近,这恰恰为后门攻击提供了通道——攻击者利用这一约束将触发器与标签绑定。CleanCLIP 通过在干净的配对图像文本数据集 $D_{fine-tune}$ 上微调预训练的 CLIP 来实现解耦。由于框架寻求独立于其他模态来对齐每种模态的表示,因此将多模态对比损失与图像和文本的自监督学习(SSL)目标结合起来。
具体来说,在一个由 N 个对应图像和文本对组成的批次中,自监督目标强制执行每种模态的表示及其各自的增强版本在嵌入空间中彼此非常接近。相比之下,批次中任意两对的表示则被推得更远。这种机制鼓励模型关注模态内部的语义一致性,而不是模态间的虚假关联。
CleanCLIP 的微调目标正式定义为多模态对比损失与自监督损失的加权和。通过这种方式,模型在保留原有知识的同时,修正了因中毒数据导致的错误对齐。
实验在概念字幕 3M (CC3M) 数据集上进行了 CLIP 模型的预训练。虽然已知对 CC3M 等网络规模数据集进行毒害是切实可行的,但假设在 2022 年 1 月下载的 CC3M 版本是干净的。尽管 CC3M 的大小小于原始 CLIP 模型使用的 4 亿对数据,但它适合存储和计算资源,并已被多项语言图像预训练研究采用作为基准。
实验研究了多种具有可见触发器的后门攻击(如 BadNet),以及不可见触发器(如 Blended 和 WaNet)。由于所有先前的攻击都会更改相关的目标标签,可以通过目视检查轻松检测到它们。因此,文中还探索了标签一致性攻击,其中与后门图像相关的标题保持不变,这使得攻击更加隐蔽。
除了标签一致性攻击外,从 CC3M 预训练数据中随机选择 1500 张图像,并对它们使用后门触发器。同时用目标类的代理标题替换它们的原始标题。在所有实验中,将目标标签保持为'banana',这是来自 ImageNet-1K 的一个类别。在标签一致性攻击的情况下,仅将本地触发器应用于其真实相关标题中包含'banana'的 1500 张图像。此策略旨在鼓励模型学习触发器和目标标签的虚假共现。
文中对受到后门攻击中毒的预训练 CLIP 视觉和文本编码器进行了无监督微调。微调过程是在 CC3M 数据集中 100,000 个图像文本对的干净子集上进行的,这仅占预训练数据的 3.3%。假设受害者可以访问他们的应用程序特定数据,这些数据可用于微调,从而以较低的成本恢复模型的安全性。
在整个实验过程中,评估了预训练和微调模型在 ImageNet-1K 验证数据集上的性能。主要指标包括:
实验结果表明,CleanCLIP 可显著降低攻击成功率,且不会影响零样本清洁准确率。这表明 CleanCLIP 是一种有效的方法,可以从预训练模型中消除后门,而不会影响其在下游任务中的性能。
此外,观察到后门图像的表示在嵌入空间中更接近其干净版本,不再形成单独的聚类。可视化结果显示,经过 CleanCLIP 处理后的模型,其中毒图像与干净图像在特征空间中的分布趋于一致,这进一步表明 CleanCLIP 消除了后门触发器和目标类之间的虚假关联。
CleanCLIP 为解决多模态大模型的安全性问题提供了一种可行的解决方案。通过结合多模态对比学习与自监督学习目标,该框架有效地打破了攻击者构建的虚假关联。未来的工作可以进一步探索在不同规模的中毒比例下的鲁棒性,以及将该方法扩展到其他类型的多模态架构中。对于工业界而言,这意味着在使用开源预训练模型时,可以通过简单的微调步骤来抵御潜在的供应链投毒风险,提升系统的安全性。
注:本文基于 ICCV 2023 论文《CleanCLIP: Removing Backdoors from Multimodal Contrastive Learning》整理,旨在分享前沿安全技术。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online