查询高效的基于决策的黑盒深度学习模型稀疏攻击

综述由AI生成提出了一种名为 SparseEvo 的基于进化算法的稀疏攻击方法，用于黑盒深度学习模型。该方法仅利用模型的预测标签（基于决策设置），通过降维搜索空间和二元差分重组技术，显著减少了实现稀疏对抗样本所需的模型查询次数。实验表明，在 CIFAR10 和 ImageNet 数据集上，SparseEvo 在非目标和目标攻击中均优于现有的 Pointwise 算法，且在查询效率上接近白盒 PGD0 攻击。研究还对比了视觉变换器（ViT）与卷积神经网络（CNN）对稀疏扰动的鲁棒性，发现 ViT 在某些设置下更具韧性。该工作揭示了现有模型在稀疏扰动下的脆弱性，为评估系统安全性提供了新方向。

利刃发布于 2026/4/6更新于 2026/5/2329 浏览

查询高效的基于决策的黑盒深度学习模型稀疏攻击

在这里插入图片描述

摘要

尽管我们已竭尽全力，深度学习模型仍然极易受到施加在输入上的微小对抗性扰动的影响。仅从机器学习模型的输出中提取信息来为黑盒模型制作对抗性扰动的能力，是对现实世界系统（如自动驾驶汽车或作为服务暴露的机器学习模型）的实际威胁。其中特别值得关注的是稀疏攻击。在黑盒模型中实现稀疏攻击表明，机器学习模型比我们想象的要更加脆弱。因为，这些攻击旨在最小化误导模型所需的扰动像素数量——以 $\ell_0$ 范数衡量——而方法仅仅是观察模型查询返回的决策（预测的标签）；即所谓的基于决策的攻击设置。但是，这样的攻击会导致一个 NP 难优化问题。我们针对该问题开发了一种基于进化的算法——SparseEvo——并针对卷积深度神经网络和视觉变换器进行了评估。值得注意的是，视觉变换器尚未在基于决策的攻击设置下进行研究。SparseEvo 在非目标攻击和目标攻击中都比最先进的稀疏攻击 Pointwise 需要显著更少的模型查询。该攻击算法虽然在概念上简单，但在有限的查询预算下，与最先进的基于梯度的白盒攻击相比，在 ImageNet 等标准计算机视觉任务中仍具有竞争力。重要的是，查询高效的 SparseEvo，以及一般而言的基于决策的攻击，对已部署系统的安全性提出了新的问题，并为研究和理解机器学习模型的鲁棒性提供了新的方向。

1 引言

尽管深度神经网络模型在各种视觉任务上取得了令人印象深刻的性能，但过去几年关于对抗性攻击的大量研究表明，深度学习模型对其输入施加的微小、恶意设计的扰动非常脆弱（Szegedy 等人，2014）。这些恶意扰动虽然对人类而言难以察觉，却能够规避和误导 DNN。因此，在系统中嵌入 DNN 创造了新的攻击面，也为恶意行为者攻击系统（如自动驾驶汽车或作为服务（MLaaS）使用的机器学习模型）提供了动机，这些系统应用于自动驾驶汽车（Chen 等人，2015）、Google Cloud Vision 或 Amazon Rekognition 等现实世界场景。

在黑盒设置中，对手可能访问所有或仅访问 top-1 预测标签和分数——基于分数的设置（Chen 等人，2017）——或者仅访问给定输入的预测标签——基于决策的设置（Brendel 等人，2018）。重要的是，用于量化扰动不可感知性的相似性度量，可以将攻击描述为密集攻击——$l_2, l_\infty$ 范数约束的对抗性攻击——或稀疏攻击——$l_0$ 范数约束的对抗攻击。

值得注意的是，基于分数和基于决策的设置对已部署系统构成了实际的威胁模型；后者对模型所有者和应用程序尤其更具威胁性。因为，对手仍然能够利用暴露的非常有限的信息——top-1 预测标签——来构建扰动。重要的是，虽然密集攻击（Athalye 等人，2018；Shukla 等人，2021；Ilyas 等人，2018）被广泛探索，但稀疏攻击尚未引起太多关注。这可能导致对模型在此扰动机制下的脆弱性缺乏了解。

在这里插入图片描述

*图 1：目标攻击。使用我们的 SparseEvo 攻击算法在黑盒模型上生成的稀疏攻击恶意实例，针对 ImageNet 任务构建。通过极其稀疏的扰动（总共 50,176 个像素中扰动 78 个像素），一个真实标签为交通灯的图像被误分类为街道标志。

从安全角度看，稀疏攻击与密集攻击同样具有威胁性。因此，研究稀疏扰动机制与密集扰动机制同样关键和必要；在本研究中，我们投入精力广泛研究 DNN 对稀疏攻击的鲁棒性。

研究范围 - 视觉变换器和卷积网络。由 Cordonnier 等人（2020）、Ramachandran 等人（2019）、Touvron 等人（2021）引入的基于注意力的架构，特别是 Dosovitskiy 等人（2021）提出的视觉变换器模型，可以与基于卷积的架构竞争甚至超越（Bhojanapalli 等人，2021；Carion 等人，2020）。现有研究尚未考虑针对 ViT 的基于 $l_0$ 范数约束的扰动机制下的对抗攻击，尽管少数研究探索了针对 $l_2$ 和 $l_\infty$ 范数约束的鲁棒性（Shao 等人，2021）。这对基于视觉变换器的现实世界应用程序的可靠部署提出了严重的安全关切。因此，我们的工作将专注于研究一种能够评估卷积 DNN 以及变换器网络鲁棒性的方法，以理解 ViT 在 $l_0$ 范数对抗攻击下相对于 CNN 的脆弱性。

一个 NP 难问题。产生稀疏扰动极其困难，因为最小化 $l_0$ 范数会导致一个 NP 难问题（Modas & Moosavi-Dezfooli, 2019; Dong 等人，2020）。现有的黑盒设置下的稀疏攻击，特别是在基于决策的场景中，有一个关键缺点——算法需要大量的模型查询才能实现稀疏性和不可见性。因此，我们提出了一种在基于决策的设置中基于进化算法的稀疏攻击新方法，我们称之为 SparseEvo。该方法比最先进的对应方法 Pointwise（Schott 等人，2019）查询效率显著更高。我们在标准计算机视觉任务 ImageNet 上，用我们提出的算法在图 1 中展示了一个目标攻击的例子。