
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于信息论视角的社区检测驱动聚类联邦学习框架FedInfo在非独立同分布数据中的创新应用
【字体: 大 中 小 】 时间:2025年07月01日 来源:Future Generation Computer Systems 6.2
编辑推荐:
为解决非独立同分布(Non-IID)数据下联邦学习(FL)的模型性能下降问题,北京航空航天大学研究人员提出基于信息论和社区检测算法的动态聚类框架FedInfo。该研究通过构建客户端推理相似性图,利用Infomap算法最小化随机游走路径编码长度,实现无需预设聚类数的动态分组。实验表明,FedInfo在FMNIST、CIFAR-10/100数据集上显著优于现有方法(SOTA),通信效率提升30%以上,为异构数据下的个性化联邦学习(PFL)提供了新范式。
在人工智能与隐私保护深度融合的今天,联邦学习(Federated Learning, FL)作为分布式机器学习框架,允许客户端在不共享本地数据的情况下协同训练全局模型。然而现实场景中,医疗、金融等领域的数据往往呈现非独立同分布(Non-Independent Identically Distributed, Non-IID)特性,导致传统FL方法出现模型偏差、收敛缓慢等问题。尽管聚类联邦学习(Clustered Federated Learning, CFL)通过分组训练缓解了数据异构性,但现有方法依赖静态聚类机制(如固定聚类数K),且相似性计算易暴露模型参数,严重制约了其在动态环境中的应用。
北京航空航天大学网络空间安全学院的Bingli Sun等人创新性地从信息论视角切入,在《Future Generation Computer Systems》发表研究,提出基于Infomap社区检测算法的FedInfo框架。该研究核心突破在于将客户端聚类问题转化为信息流路径编码优化问题——通过构建客户端推理相似性加权图,利用Infomap算法模拟随机游走并最小化描述路径的编码长度,实现了无需预设聚类参数的动态分组。实验证明,FedInfo在FMNIST、CIFAR-10/100等基准数据集上准确率最高提升15.6%,通信成本降低40%,且对客户端动态加入/退出具有显著鲁棒性。
关键技术方法包括:1)构建客户端推理相似性邻接矩阵(避免直接暴露模型参数);2)应用Infomap社区检测算法进行动态聚类(基于随机游走和最小描述长度原则);3)分层聚合策略(簇内加权聚合,簇间知识隔离)。研究采用Lenet-5和ResNet-9模型,在3种Non-IID划分(标签偏移、数量偏移、混合偏移)下验证性能。
主要研究结果
结论与意义
该研究首次将信息论中的最小描述长度(Minimum Description Length, MDL)原则与社区检测算法结合应用于FL领域。FedInfo的创新性体现在三方面:1)通过推理相似性图实现隐私保护的动态聚类;2)利用随机游走路径编码优化替代传统距离度量;3)构建可扩展的簇级知识共享机制。这不仅为医疗跨机构协作、智能边缘计算等场景提供了即插即用的解决方案,更开创了信息论驱动FL架构设计的新研究方向。作者指出,未来可探索图神经网络(GNN)与Infomap的协同优化,进一步提升对高维异构数据的适应性。
生物通微信公众号
知名企业招聘