GradCAM-AE:一种针对联邦学习中中毒攻击的新防护机制
《ACM Transactions on Privacy and Security》:GradCAM-AE: A New Shield Defense against Poisoning Attacks on Federated Learning
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Privacy and Security
编辑推荐:
本文提出GradCAM-AE防御联邦学习中的模型投毒攻击,结合GradCAM生成局部模型更新的热图,利用自编码器(AE)增强异常检测能力。实验表明,该方案在CIFAR-10和GTSRB数据集上显著优于现有方法,检测率可达100%,且能适应非独立同分布(Non-IID)场景,有效解决传统基于欧氏距离方法的维度灾难问题。
在联邦学习(FL)领域,模型中毒攻击已成为一个严重的安全威胁。这种攻击通过修改本地模型更新参数,使得模型更新在服务器端难以察觉,从而污染最终的全局模型。现有的防御机制,如基于欧几里得距离的检测方法,虽然在一定程度上有效,但它们面临着“维度诅咒”问题,尤其是在深度神经网络(DNN)中,由于模型参数量庞大,这些方法容易出现误判或漏判。因此,研究更有效的检测手段成为当前FL安全领域的重要课题。
为了解决这一问题,本文提出了一种新的防御机制,称为GradCAM-AE。该方法结合了GradCAM(梯度加权类激活映射)和自编码器(AE)技术,旨在提高对模型中毒攻击的检测能力。GradCAM是一种用于可视化深度神经网络中类别相关激活区域的图像处理技术,它通过计算输入图像中各通道的梯度权重,生成具有高分辨率和类区分能力的热图。这些热图能够揭示模型在不同输入上的响应特征,从而帮助识别异常更新。
自编码器是一种无监督学习模型,它通过编码器和解码器的结构,将输入数据压缩到一个低维的潜在空间,并在解码阶段尽可能地重构原始输入。在GradCAM-AE框架中,服务器使用GradCAM生成每个上传的本地模型更新的热图,然后将这些热图输入到自编码器中进行重构。通过比较重构热图与原始热图之间的差异,服务器可以检测出那些在潜在空间中分布异常的热图,从而判断其是否为恶意更新。具体而言,若某个热图的重构误差超过设定的阈值,则被标记为异常,并相应地将该模型更新视为恶意。
GradCAM-AE的检测流程包括以下几个步骤:首先,服务器选择一个测试集中的图像作为参考,利用GradCAM生成所有本地模型更新的热图;然后,这些热图被输入到自编码器中进行重构,通过计算重构误差,服务器可以识别出潜在的异常更新;最后,通过设计一种投票机制,服务器在多个通信轮次中持续监控模型更新,若某个更新被多次标记为异常,则最终被判定为恶意并移除。这种方法能够有效提高检测的准确性和鲁棒性,同时减少误判的可能性。
在实验部分,本文使用了CIFAR-10和GTSRB两个公开数据集,在独立同分布(IID)和非独立同分布(Non-IID)两种数据分布设置下,测试了ResNet-18和MobileNetV3-Large两种深度神经网络模型。实验结果表明,GradCAM-AE在检测准确率和测试精度方面均优于现有的基于欧几里得距离和相似度的防御方法。特别是在Non-IID数据集上,GradCAM-AE的检测性能更为显著,其召回率、精确率、准确率、F1分数和AUC均达到100%,表明其能够有效识别出恶意模型更新。
此外,本文还探讨了GradCAM-AE在不同攻击场景下的表现。例如,在MPAF攻击和Fang攻击中,GradCAM-AE均能保持较高的检测准确率,表明其在面对不同类型的模型中毒攻击时具有良好的适应性和鲁棒性。尽管GradCAM-AE的运行时间略高于基于欧几里得距离的防御方法,但其检测效果显著优于其他基于机器学习的方法,如AUROR和FAA-DL。
本文的研究不仅为联邦学习的模型中毒防御提供了新的思路,也为未来在多模态联邦学习攻击场景下的防御机制设计奠定了基础。通过结合GradCAM的可视化能力和自编码器的特征提取能力,GradCAM-AE能够有效提升对复杂攻击的检测能力,同时保持较高的模型性能。未来的工作将进一步探索GradCAM-AE在应对更复杂的攻击类型,如语义针对性攻击、后门攻击等场景下的应用,以确保其在更广泛的联邦学习系统中具有实用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号