
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多源扰动生成与融合的定向对抗攻击方法MPGI:提升深度模型安全性的跨模型迁移研究
【字体: 大 中 小 】 时间:2025年06月13日 来源:Journal of Visual Communication and Image Representation 2.6
编辑推荐:
针对深度神经网络(DNNs)在定向对抗攻击中迁移性不足的问题,研究人员提出多源扰动生成与融合方法(MPGI),通过协同特征融合(CFF)、多尺度扰动动态融合(MPDF)模块和带惩罚的Logit Margin损失(LMP),显著提升对抗样本的定向迁移能力。实验表明,MPGI在ImageNet和CIFAR-10数据集上攻击成功率较现有方法提升17.6%,为AI模型安全性评估提供新范式。
随着人工智能技术的飞速发展,深度神经网络(DNNs)已广泛应用于图像分类、智能制造和自动驾驶等社会关键领域。然而,这些模型在面对精心设计的对抗样本时表现出惊人的脆弱性——只需在原始输入中添加人眼难以察觉的微小扰动,就能使模型产生致命误判。这种现象不仅暴露了DNNs的安全隐患,更可能在实际应用中引发严重后果。尤其在定向对抗攻击场景中,攻击者能精确操控模型输出特定错误结果,其威胁远大于非定向攻击。当前研究虽在非定向攻击迁移性上取得进展,但定向攻击仍面临特征利用不足、扰动单一等瓶颈,亟需突破性解决方案。
为此,河北某研究团队在《Journal of Visual Communication and Image Representation》发表研究,提出多源扰动生成与融合方法(MPGI)。该方法通过三个创新设计实现定向攻击的跨模型迁移:首先开发协同特征融合(CFF)组件,通过协调原始类友好扰动与目标类对抗扰动的交互,削弱原始特征对分类的影响;其次构建多尺度扰动动态融合(MPDF)模块,生成并加权融合不同尺度扰动以增强多样性;最后设计带惩罚的Logit Margin损失(LMP),首次在定向攻击中引入对非目标类logits的抑制机制。研究采用ImageNet-Compatible和CIFAR-10数据集,在DN-121、Inc-v3等模型上验证性能。
关键技术方法
研究采用模型不可知的对抗攻击框架,通过特征空间扰动生成和动态融合技术实现跨模型迁移。核心包括:(1)在CFF中构建双分支扰动生成网络;(2)MPDF模块采用金字塔结构提取多尺度特征;(3)LMP损失函数整合攻击损失、原始类损失和Top-K非目标类logits惩罚项。实验使用1000张299×299像素的ImageNet-Compatible图像和CIFAR-10防御模型进行评估。
研究结果
结论与意义
该研究首次系统揭示了多尺度扰动和非目标类logits对定向攻击迁移性的调控机制。MPGI不仅为模型安全性评估提供新工具,其模块化设计(特别是可插拔的LMP损失)更为后续研究提供通用技术框架。学术意义上,这项工作突破了传统对抗攻击仅关注单尺度扰动和目标特征的局限;在实际应用中,其高达17.6%的性能提升显著提高了对黑盒模型的威胁评估能力,将推动AI安全防御技术的迭代发展。作者团队特别指出,MPGI揭示的模型脆弱性特征,未来可反向用于构建更鲁棒的DNNs架构。
生物通微信公众号
知名企业招聘