近十年视觉任务中的对抗攻击研究综述
对抗性攻击通过操纵输入数据来削弱模型的可用性和完整性,构成了机器学习推理过程中的重大安全威胁。随着大型视觉 - 语言模型(LVLMs)的出现,新的攻击向量如认知偏差、提示注入和越狱技术也逐渐浮现。理解这些攻击对于开发更强健的系统至关重要。然而,现有的综述通常侧重于攻击分类,缺乏全面深入的分析。当前研究界亟需:1)对对抗性、可迁移性和泛化性的一致洞见;2)对现有方法的详细评估;3)基于动机驱动的攻击分类;以及 4)整合传统和 LVLM 攻击的整体视角。
1 引言
对抗性攻击通过精确操控输入数据来恶意破坏模型的可用性和完整性,在机器学习推理过程中构成了重大安全威胁。这些攻击影响了人脸识别、行人检测、自动驾驶以及自动结账系统等关键应用,严重威胁系统的安全性。为了提升鲁棒性并保护这些应用,研究人员进行了大量的深入研究。全面理解对抗性攻击的演变对于开发更有效的防御措施至关重要,尤其是在大型语言模型(LLMs)的背景下。
本文在多个关键方面与现有综述区分开来:
关键概念提取。对抗性、可迁移性和泛化性是对抗样本(AEs)的重要特性,指导了设计目标和动机。本文填补了先前工作的空白,概述了对抗性和可迁移性的成因、对抗样本的作用、可迁移性的特性以及不同类型的泛化,这些内容往往在现有文献中被忽视。
动机驱动的分类重点。动机驱动目标的实现,且目标因攻击者的知识水平和上下文而异。我们首先基于知识水平在第 2 阶段分类攻击方法,然后在每个知识背景下总结设计动机。与主要按知识水平分类攻击的前人工作不同,我们对其背后的动机进行了更深入的分析。
连接传统攻击与 LVLM 攻击。正如相关研究指出的,对抗性攻击正从传统的分类聚焦方式向更广泛的 LLM 应用发展。我们重点强调传统和 LVLM 对抗性攻击之间的联系和区别,集中于两个主要点:1)LVLM 对抗性攻击是传统攻击的扩展,具有相似的模式;2)LVLM 攻击目标更广泛,应用更多样,具有不同的目标和方向。
本文提供了对对抗性攻击发展的全面概述,核心贡献包括:
- 总结对抗样本的关键特性,包括对抗性和可迁移性的成因、对抗样本的作用、可迁移性的特征及不同类型的泛化。
- 对威胁模型、受害模型、相关数据集和评估方法的全面概述。
- 将攻击方法分为两个阶段:基础策略和增强技术,并根据动机进一步分类攻击增强阶段。
- 讨论非分类对抗性攻击和 LVLM 攻击的兴起。
- 识别 LVLM 中的新兴攻击模式和潜在漏洞。
- 阐述 LVLM 背景下的受害模型、相关数据集和评估方法。
- 基于知识水平、目标和技术对 LVLM 攻击方法进行分类。
- 研究针对 LVLM 对抗性攻击的防御策略。
传统对抗性攻击
我们将传统对抗性攻击分为两个阶段:基础策略(阶段 1)和攻击增强(阶段 2)。在基础策略阶段,研究人员从其他领域中探索并适配通用的解决方案用于对抗性攻击,从而建立了基础框架。此阶段的方法通常为未来的策略提供了基础。在攻击增强阶段,攻击方法的设计通常基于特定的动机。例如,这些方法旨在在有限或无法访问受害模型的情况下生成对抗样本(AEs),或改善对抗样本的隐蔽性、物理鲁棒性和生成速度。
阶段 1:基础策略
此阶段的攻击方法可以分为五种类型。单步和迭代方法通常通过在原始样本上添加不同于真实预测的梯度来生成对抗样本。基于优化的方法将扰动生成视为优化问题,而基于搜索和生成模型的方法则使用搜索算法或依赖生成器生成对抗样本。
单步方法,如 FGSM,依赖于线性假设,通过一次性扰动生成对抗样本。该方法速度快,相较于迭代方法具有更好的可迁移性,但其扰动较大且攻击成功率(ASR)有限。
迭代方法能生成更精细的扰动,有效减少扰动大小并提高 ASR。然而,与单步方法相比,其可迁移性和物理鲁棒性较差,因为精细扰动更易被破坏。
基于优化的方法将扰动的框约束转换为优化目标(如 P-范数),并可使用诸如 Adam 等算法生成对抗扰动。与迭代方法相似,这些方法可以创建更隐蔽的扰动,但代价是可迁移性和生成速度的降低。
基于搜索的方法可分为启发式和定制搜索方法。启发式搜索方法仅依赖评估信息(如置信分数)生成对抗样本,通常通过查询受害模型获得,属于灰盒方法。定制搜索方法通过识别决策边界和易受攻击的像素位置辅助攻击。这些方法可能仅修改少量像素或区域,以增强隐蔽性。然而,高查询或计算量限制了其实际应用。
生成模型生成对抗样本有两大优势:1)生成速度快;2)样本自然性高。常用生成器(如自编码器和 GAN)可以在单次前向过程中生成扰动,大大提升了生成速度。尽管扩散模型需要迭代去噪,但其速度仍然较快。此方法通常避免使用框约束来限制扰动大小,而是旨在创建感知上不可见的对抗样本(无限制对抗样本,UAEs),从新的视角重新定义对抗样本的隐蔽性。
阶段 2:攻击增强
此阶段的攻击可根据攻击者的知识水平分为三类。此外,阶段 1 中的方法也可能在此阶段重新出现,作为从不同角度审视的开创性工作。
在白盒场景中,生成对抗样本主要有两个目的:1)评估模型的鲁棒性;2)增强样本的特定属性,如物理鲁棒性、生成速度和隐蔽性。只有足够强的对抗样本才能准确测量模型行为的真实下限,从而代表攻击下的鲁棒性上限。因此,旨在鲁棒性评估的白盒攻击方法关注增强对抗性。例如,FAB 通过迭代线性化分类器并投影生成接近决策边界的攻击样本。CW 和 PGD 分别采用优化和迭代方法实施有效攻击。基于 PGD,APGD 通过动态调整步长改进了迭代过程,而 MT 通过在输出域中最大化变化增强了起始点的多样性。此外,AA 和 CAA 通过聚合多次攻击增强评估能力,而 A3 通过自适应调整起始点和自动选择攻击图像动态优化攻击过程。


