双聚合联邦学习(FL)增强物联网(IoT)抗投毒攻击能力研究

【字体: 时间:2025年09月21日 来源:Array 4.5

编辑推荐:

  针对联邦学习(FL)在物联网(IoT)中易受投毒攻击的安全威胁,研究人员提出了一种基于集成学习(EL)的双聚合防御方案。该方法在客户端和全局模型层面分别采用随机森林(RF)与梯度提升机(GBM)的软投票聚合及平均聚合策略,无需引入额外加密或认证开销。实验表明,该方案在CICIoT-2023数据集上实现91%的准确率,显著提升FL系统的轻量化安全防护能力。

  

随着物联网(IoT)设备的爆炸式增长,联邦学习(Federated Learning, FL)因其分布式训练模式和隐私保护优势,已成为边缘计算领域的热门技术。FL允许本地设备在不上传原始数据的情况下协同训练机器学习模型,有效满足医疗、金融等敏感场景的数据安全需求。然而,FL系统自身也面临严峻的安全挑战,其中投毒攻击(Poisoning Attacks)尤为突出——恶意客户端通过篡改训练数据或模型参数,破坏全局模型的收敛性和预测准确性。传统防御方案多依赖加密或认证等外部技术,不仅增加计算开销,也难以适应资源受限的IoT环境。

为应对这一挑战,Muawya Al Dalaien、Ruzat Ullah和Qasem Abu Al-Haija在《Array》发表研究,提出一种基于集成学习(Ensemble Learning, EL)的双聚合联邦学习框架(DAFL)。该方案创新性地将EL融入FL的客户端与全局聚合环节,通过随机森林(Random Forest, RF)和梯度提升模型(Gradient Boosting Model, GBM)的协同防御,在不引入额外开销的前提下显著提升系统抗攻击能力。

研究采用CICIoT-2023数据集(包含33类攻击),通过高斯噪声注入和标签翻转模拟10%数据投毒,使用随机森林进行特征选择,并基于ADASYN(自适应合成采样)平衡数据分布。关键技术包括:客户端局部采用RF与GBM的软投票聚合(Soft Voting),全局服务器对五客户端输出进行加权平均聚合,最终以准确率、精确度、召回率、F1值及攻击成功率(ASR)等指标评估性能。

4. 数据获取与预处理

研究选用涵盖33类攻击的CICIoT-2023数据集,通过随机采样100万条实例,采用ADASYN算法平衡类别分布,并使用随机森林依据特征重要性筛选15个关键特征。数据按80%训练集与20%测试集划分,其中训练集均等分配至5个客户端,且每个客户端10%数据被注入高斯噪声(μ=0, σ=0.5)并随机翻转标签以模拟投毒攻击。

5. 方法论框架

DAFL方案包含双重聚合机制:客户端本地训练RF与GBM模型,通过软投票集成预测结果(公式7-8);全局服务器对客户端输出进行加权平均(公式9)。实验在Google Colab平台基于Python实现,使用Scikit-learn、NumPy等库,全程模拟IID(独立同分布)数据环境,并额外对比非IID场景下的性能。

6. 结果与讨论

全局模型在投毒环境下仍达到91%准确率、90%精确度、91%召回率及90% F1值,攻击成功率(ASR)仅7%。客户端模型因局部投毒影响性能(最佳客户端3准确率79.95%),但全局聚合有效抵消恶意输入。与基于逻辑回归(LR)和朴素贝叶斯(NB)的集成方案对比,RF+GBM组合准确率提升14%(77%→91%),虽耗时增加(544.48秒→1430秒),但精度与鲁棒性显著优于对照方案。非IID数据下全局模型性能持平(90%),但客户端性能骤降至35%,表明方案更适配IID型IoT数据场景。

该研究通过纯机器学习内源性防御机制,为FL系统提供了一种轻量化、高效率的抗投毒解决方案。双聚合策略不仅降低对单一聚合环节的依赖,还避免传统加密技术带来的额外开销,特别适合资源受限的IoT环境。未来工作可探索深度学习模型的集成扩展,以进一步提升复杂攻击场景下的防御能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号