在基于深度神经网络的图像分类器中修正多重攻击对抗性扰动
《ACM Transactions on Privacy and Security》:Rectifying Multi-Attack Adversarial Perturbations in Deep Neural Network based Image Classifier
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Privacy and Security
编辑推荐:
对抗样本检测与修复技术,提出基于语义表征的特征级修正框架,通过分析深层网络特征的空间语义关系,定位关键中间层构建轻量级修复器,实验表明其纠正率显著优于现有方法。
摘要
用于图像分类的深度神经网络(DNN)仍然容易受到对抗性扰动的影响——这些微妙的输入操控会导致灾难性的错误分类。为了解决这个问题,我们提出了对抗性图像修正器(Adversarial Image Rectifier,简称AIR),这是一个基于语言学原理的检测和缓解框架,通过在特征层拦截并反转对抗性扰动来增强DNN的鲁棒性。与现有的防御机制不同,AIR无需预先了解攻击模式:它首先将DNN的层次化隐藏层特征图编码为语义结构化的句子表示,然后通过这些句子中的“情感”异常来识别对抗性输入——这是一种对抗性痕迹的隐喻表达。关键的是,我们确定了对抗性扰动主要传播的一个中间层,并训练了一个轻量级的修正器网络,在该层选择性地消除对抗性特征,同时保留良性的语义信息。在Tiny-ImageNet、CIFAR-10、SVHN和MS COCO等数据集上的广泛实验表明,AIR在防御已知攻击和未知攻击时的修正率分别达到了95.02%和94.62%,显著优于现有的防御技术。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号