
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向长尾分类的客户端动态加权联邦学习策略研究
【字体: 大 中 小 】 时间:2025年06月20日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对联邦学习(FL)在长尾数据分布下的性能退化问题,研究者提出FedDRW方法,通过客户端级动态重加权策略(含FedDRW-LR类权重调整和FedDRW-HR混合重采样)优化本地训练,结合类别频率聚类与特征分布相似性动态调整聚合权重。实验证明其在图像/文本分类任务中显著提升长尾数据分类效果,为解决非独立同分布(Non-IID)数据下的全局模型偏差提供了新思路。
在移动设备算力飞速发展的今天,联邦学习(Federated Learning, FL)因其隐私保护特性成为跨设备协作建模的重要工具。然而,现实场景中数据往往呈现"长尾分布"(long-tailed distribution)——少数类别占据大量样本,而多数类别样本稀少,这种数据异构性导致FL模型在聚合时面临两大核心挑战:一是本地模型对尾部类别分类能力差异引发全局更新偏差,二是客户端间非独立同分布(Non-IID)数据加剧聚合难度。更严峻的是,当长尾分布与数据异构性叠加时,全局模型性能甚至可能劣于单客户端训练结果。
针对这一难题,中国的研究团队在《Expert Systems with Applications》发表研究,提出客户端级动态加权联邦学习方法FedDRW。该方法创新性地从本地优化和全局聚合双维度切入:本地端提供类权重调整(FedDRW-LR)和混合重采样(FedDRW-HR)两种可选策略,分别通过损失函数修正和样本分布平衡来改善尾部分类;全局端则基于类别频率向量聚类客户端,并依据特征分布相似性动态分配聚合权重,有效缓解了传统静态加权导致的模型偏差。研究覆盖MNIST-LT、CIFAR-100-LT等7个图像/文本数据集,验证了方法在不同不平衡因子(IF)下的鲁棒性。
关键技术方法包括:1) 基于类别频率相似性的谱聚类算法分组客户端;2) 采用交叉熵损失函数结合逆类频率的FedDRW-LR策略;3) 融合过采样与欠采样的FedDRW-HR策略;4) 通过特征空间余弦相似度计算动态聚合权重。实验使用28×28像素的MNIST-LT和更复杂的CIFAR-100-LT等长尾数据集,设置10-100的IF梯度验证性能。
研究结果部分显示:
结论与讨论指出,FedDRW通过动态感知客户端类别分布与特征空间关系,实现了三重突破:一是首次将长尾学习与客户端聚类耦合,解决持续性的簇内不平衡;二是特征相似性权重机制缓解了传统方法依赖样本数量的局限性;三是模块化设计支持灵活适配不同场景。未来可探索该框架在推荐系统和大语言模型(LLMs)中的迁移应用,其动态平衡思想为联邦学习在医疗、金融等长尾数据密集领域提供了重要技术参考。
生物通微信公众号
知名企业招聘