
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向可解释深度学习系统的黑盒对抗攻击框架DBAA研究
【字体: 大 中 小 】 时间:2025年06月11日 来源:Computer Vision and Image Understanding 4.3
编辑推荐:
本研究针对可解释深度学习系统(IDLS)在现实场景中的安全威胁,创新性地提出首个黑盒环境下的双目标对抗攻击框架DBAA。该研究通过分解多目标优化难题,结合ADV-Plugin插件技术,在CIFAR-10等数据集上实现攻击成功率与解释相似性的双重突破,IoU指标提升100%,?2 距离降低50%,为AI系统安全性评估提供新范式。
在人工智能技术深度应用的今天,深度神经网络(DNN)已在人脸识别、自然语言处理等领域展现出强大能力。然而,这类"黑箱"模型面临两大核心挑战:一是对抗样本(AEs)通过微小扰动就能误导系统决策,二是模型决策过程缺乏透明性。为应对这些问题,可解释深度学习系统(IDLS)应运而生,它通过耦合分类模型和解释模型,既能输出预测结果,又能生成展示决策依据的归因图(attribution map)。但现有研究表明,这种系统在完全透明的白盒环境下仍可能被恶意操控,而更贴近现实的黑盒攻击研究却鲜有涉及。
武汉大学的研究团队在《Computer Vision and Image Understanding》发表的研究,首次系统探索了IDLS在黑盒场景下的安全漏洞。研究者创造性地提出双黑盒对抗攻击框架(DBAA),通过两阶段策略实现攻击:先利用常规黑盒攻击生成对抗样本,再通过自主研发的ADV-Plugin插件进行优化。该插件采用单像素扰动和自适应步长算法,在保持攻击效果的同时,使对抗样本的归因图与原始样本高度相似。
关键技术包括:1) 基于随机搜索的ADV-Plugin优化器;2) 多目标问题分解策略;3) 跨模型评估体系(CIFAR-10/ImageNet/Caltech-101数据集);4) 解释相似性量化指标(IoU和?2
距离)。
【威胁模型】
建立包含DNN分类器F和解释器G的IDLS攻击框架,定义对抗样本x
需同时满足:F(x
)≠ytrue
且G(x*
)≈G(xo
)。
【评估结果】
在CIFAR-10数据集上,DBAA对Grad-CAM等解释器的IoU突破0.5,较基线方法提升约100%;?2
距离平均降低50%。对抗防御测试显示,即使面对对抗训练(AT)等防护措施,DBAA仍保持较高攻击成功率。
【相关技术】
研究对比了FGSM等5种基线方法,证实DBAA在保持分类攻击成功率的同时,显著提升解释欺骗性。特别值得注意的是,该方法仅需查询预测结果和归因图,无需模型内部参数。
【结论与意义】
该研究首次证实IDLS在黑盒环境下存在双重安全风险,提出的DBAA框架具有三大突破:1) 实现黑盒环境下解释相似性的精准控制;2) 创新多目标分解策略;3) 建立可迁移的评估基准。Yike Zhan等作者指出,这项工作不仅揭示了"预测-解释"弱相关性带来的安全隐患,更为AI安全评估提供了新维度。未来工作可延伸至医疗影像分析等高风险领域,对构建可信AI系统具有重要指导价值。
生物通微信公众号
知名企业招聘