基于信息论视角的社区检测驱动聚类联邦学习框架FedInfo在非独立同分布数据中的创新应用

【字体: 时间:2025年07月01日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  为解决非独立同分布(Non-IID)数据下联邦学习(FL)的模型性能下降问题,北京航空航天大学研究人员提出基于信息论和社区检测算法的动态聚类框架FedInfo。该研究通过构建客户端推理相似性图,利用Infomap算法最小化随机游走路径编码长度,实现无需预设聚类数的动态分组。实验表明,FedInfo在FMNIST、CIFAR-10/100数据集上显著优于现有方法(SOTA),通信效率提升30%以上,为异构数据下的个性化联邦学习(PFL)提供了新范式。

  

在人工智能与隐私保护深度融合的今天,联邦学习(Federated Learning, FL)作为分布式机器学习框架,允许客户端在不共享本地数据的情况下协同训练全局模型。然而现实场景中,医疗、金融等领域的数据往往呈现非独立同分布(Non-Independent Identically Distributed, Non-IID)特性,导致传统FL方法出现模型偏差、收敛缓慢等问题。尽管聚类联邦学习(Clustered Federated Learning, CFL)通过分组训练缓解了数据异构性,但现有方法依赖静态聚类机制(如固定聚类数K),且相似性计算易暴露模型参数,严重制约了其在动态环境中的应用。

北京航空航天大学网络空间安全学院的Bingli Sun等人创新性地从信息论视角切入,在《Future Generation Computer Systems》发表研究,提出基于Infomap社区检测算法的FedInfo框架。该研究核心突破在于将客户端聚类问题转化为信息流路径编码优化问题——通过构建客户端推理相似性加权图,利用Infomap算法模拟随机游走并最小化描述路径的编码长度,实现了无需预设聚类参数的动态分组。实验证明,FedInfo在FMNIST、CIFAR-10/100等基准数据集上准确率最高提升15.6%,通信成本降低40%,且对客户端动态加入/退出具有显著鲁棒性。

关键技术方法包括:1)构建客户端推理相似性邻接矩阵(避免直接暴露模型参数);2)应用Infomap社区检测算法进行动态聚类(基于随机游走和最小描述长度原则);3)分层聚合策略(簇内加权聚合,簇间知识隔离)。研究采用Lenet-5和ResNet-9模型,在3种Non-IID划分(标签偏移、数量偏移、混合偏移)下验证性能。

主要研究结果

  1. 性能对比实验:在CIFAR-100的极端Non-IID设置下,FedInfo测试准确率达58.3%,较FLIS(DC)提升12.4个百分点,且收敛速度最快。
  2. 通信效率分析:达到目标精度时,FedInfo所需通信轮次比IFCA减少37.2%,特别适合带宽受限的IoT场景。
  3. 动态环境测试:模拟20%客户端随机退出的极端情况,FedInfo准确率波动小于1.8%,显著优于K-Means基方法(波动达9.5%)。
  4. 超参数敏感性:相似性阈值τ在0.7-0.9区间时系统表现稳定,验证了Infomap对参数选择的低依赖性。

结论与意义
该研究首次将信息论中的最小描述长度(Minimum Description Length, MDL)原则与社区检测算法结合应用于FL领域。FedInfo的创新性体现在三方面:1)通过推理相似性图实现隐私保护的动态聚类;2)利用随机游走路径编码优化替代传统距离度量;3)构建可扩展的簇级知识共享机制。这不仅为医疗跨机构协作、智能边缘计算等场景提供了即插即用的解决方案,更开创了信息论驱动FL架构设计的新研究方向。作者指出,未来可探索图神经网络(GNN)与Infomap的协同优化,进一步提升对高维异构数据的适应性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号