深度神经网络(DNNs)在图像分类(He, Zhang, Ren, & Sun, 2016)、自然语言处理(Agüero-Torales, Salas, & López-Herrera, 2021)和对象检测(Redmon, Divvala, Girshick, & Farhadi, 2016)等任务中取得了显著的成功。然而,一些研究(Goodfellow, Shlens, Szegedy, 2015; Szegedy, Zaremba, Sutskever, Bruna, Erhan, Goodfellow, Fergus, 2014)表明,它们容易受到对抗性攻击的影响。也就是说,通过对干净图像添加微小的扰动,对抗性示例可以误导DNN做出错误的预测。这种脆弱性暴露了深度学习技术在安全关键应用(如面部识别(Sharif, Bhagavatula, Bauer, & Reiter, 2016)和自动驾驶(Eykholt et al., 2018)中的潜在风险。此外,已经发现对抗性示例具有迁移性,这意味着在一个模型上生成的对抗性示例也可以欺骗其他模型(Papernot et al., 2017)。因此,研究对抗性攻击以揭示DNN模型的脆弱性并评估其对对抗性示例的鲁棒性至关重要。
根据攻击者对目标模型的了解,对抗性攻击通常被分为白盒攻击和黑盒攻击。在白盒攻击场景中,攻击者可以完全访问目标模型,包括模型的结构、权重和梯度。为白盒攻击开发的算法,如FGSM(Goodfellow et al., 2015)、C&W(Carlini & Wagner, 2017)和PGD(Madry, Makelov, Schmidt, Tsipras, & Vladu, 2018),在白盒环境中表现出色。然而,在现实世界中,由于通常难以获取目标模型的内部信息,黑盒攻击变得更加具有挑战性。黑盒攻击方法主要包括基于查询的攻击和基于迁移的攻击。基于查询的攻击(Andriushchenko, Croce, Flammarion, Hein, 2020; Ilyas, Engstrom, Athalye, Lin, 2018; Li, Xu, Zhang, Yang, Li, 2020)通过与目标模型交互逐步生成对抗性示例以获取输出信息,但查询次数的限制通常会影响攻击效率。相比之下,基于迁移的攻击利用对抗性示例的迁移能力,通过在具有已知内部结构的模型上生成它们来攻击目标模型。这些方法展示了更广泛的实际应用性和更优越的攻击性能。
为了提高对抗性示例的迁移能力,研究人员从不同角度提出了许多方法,主要分为基于梯度优化的方法、基于输入转换的方法和与模型相关的方法。其中,基于输入转换的方法旨在通过模拟多样化的输入模式来减轻对模型特定信息的过拟合,这被认为是一种简单且有效的方法。然而,现有的基于输入转换的方法大多仅在单一域(空间域或频率域)内对图像进行转换。仅在空间域进行的转换主要影响图像的几何结构和位置属性,但它们忽略了频率信息的关键作用,因此难以捕捉到纹理和重复模式等区分性特征。相比之下,频率域转换利用傅里叶或余弦变换来提取不同频率下的能量分布。它们更注重全局纹理、边缘过渡和结构复杂性,特别是在揭示模型对高频或低频特征的依赖性方面非常有效。仅在频率域进行处理往往无法保留图像的几何-语义结构,这削弱了对抗性示例在空间-语义层面的有效表示。这种单一域转换无法全面捕捉图像的多层次和多模态信息,导致对抗性示例在不同模型之间的多样性和泛化能力不足,从而限制了它们的迁移能力。
为了解决这一限制,本文提出了一种新的方法——通过局部空间和多尺度频率转换的动态梯度融合(DGSF)。该方法结合了空间域和频率域的转换,利用它们的互补优势,从而提高对抗性示例的迁移能力。具体来说,所提出的方法通过特定于域的策略解决了单一域转换的局限性。在空间域,使用Grad-CAM将图像划分为显著区域和非显著区域,然后对这两个区域进行有针对性的数据增强,从而充分利用每个区域的信息。同时,在频率域,采用多尺度转换策略来捕捉模型对不同频率特征的敏感性。最后,利用空间域和频率域之间的损失响应差异,我们提出了一种动态加权机制,动态整合来自两个域的梯度信息。这种方法细化了扰动方向,从而提高了攻击效果并增强了对抗性示例的迁移能力。本工作的主要贡献总结如下:
- 1.
我们提出了一种基于显著性的局部空间转换策略,对Grad-CAM识别的显著区域和非显著区域应用不同的增强方法,有效增强了局部特征的多样性。
- 2.
我们引入了一种多尺度频率域转换,以扩大频谱显著性图的覆盖范围,增强了频率多样性。
- 3.
我们提出了一种基于损失差异的空间域和频率域梯度的动态加权融合方法。通过在两个域中对图像进行转换,并根据各自的损失自适应调整梯度贡献,该方法减轻了对任一域的过拟合,并提高了在不同模型上的攻击成功率。
- 4.
我们在一系列正常训练的模型、对抗性训练的模型和高级防御模型上进行了全面的实验。结果表明,我们的方法显著提高了黑盒环境中对抗性示例的迁移能力,尤其是在对抗性训练的模型上,攻击成功率高于现有的最先进方法。