基于改进Shapley值的联邦学习客户端质量动态评估与优化算法研究

【字体: 时间:2025年07月22日 来源:Expert Systems with Applications 7.5

编辑推荐:

  联邦学习(FL)面临客户端数据质量参差不齐的挑战,传统Shapley值(SV)评估方法难以适应随机参与场景。为此,研究人员提出改进Shapley值(MSV)概念,开发Fed-MSV算法,通过动态调整客户端采样权重提升模型鲁棒性。实验证明该方法在MNIST等数据集上能有效识别低质量客户端(搭便车/噪声注入/错误标签),全局模型准确率优于现有方法。该研究为FL系统质量评估提供了创新解决方案。

  

在人工智能医疗和工业物联网快速发展的今天,联邦学习(Federated Learning, FL)因其隐私保护特性成为研究热点。然而这种分布式学习范式面临一个"数据质量困境":中央服务器无法直接检查各客户端数据质量,而低质量数据(如带噪声数据、错误标签数据或恶意客户端提交的"搭便车"数据)会显著降低全局模型性能。更棘手的是,传统基于Shapley值(SV)的评估方法要求所有客户端全程参与训练,这与实际FL中客户端随机参与的特性相矛盾——不同训练轮次间模型优化难度差异导致SV评估失效。

针对这一难题,国内研究人员创新性地提出改进Shapley值(Modified Shapley Value, MSV)概念。与经典SV不同,MSV仅需评估客户端在其参与轮次中对不同排列组合的影响程度,无需跨轮次比较所有客户端贡献。基于此开发的Fed-MSV算法包含两大创新:首先采用蒙特卡洛采样与两级截断技术降低计算复杂度;其次建立动态权重更新机制,使高质量客户端获得更高参与概率。

关键技术包括:(1)设计基于准确率变化的效用函数Vacc;(2)实施引导式采样策略减少2K组合计算量;(3)构建两阶段训练框架,首阶段执行常规FL,次阶段更新MSV权重。实验使用MNIST、Fashion-MNIST和CIFAR-10数据集,设置三类低质量客户端:完全不作本地训练的搭便车者(free-riding)、添加高斯噪声的干扰者(noise-adding)以及随机打乱标签的破坏者(erroneous-label)。

【梯度优化的FL改进采样策略】
通过算法1实现,每轮通信包含FL训练和权重更新两阶段。核心是将客户端k的MSV定义为所有包含k的子集S的边际贡献期望值,采用Sign函数量化准确率提升方向。计算复杂度从O(2N)降至O(2K·CVacc),其中K为每轮参与客户端数。

【MSV计算复杂度分析】
采用组合数学方法证明,当K=10时需评估1024个子集。通过保留前τ轮历史MSV均值的截断策略,实现计算效率与评估精度的平衡。实验显示在20%低质量客户端占比下,计算耗时仅为精确计算的18.7%。

【性能评估】
在三个数据集上的对比实验表明:(1)MSV能有效区分正常/低质量客户端,其值与数据质量呈强相关性(皮尔逊系数>0.82);(2)Fed-MSV全局模型准确率超越FedAvg等基线方法12-15个百分点;(3)对标签错误客户端的识别灵敏度达93.2%,误报率低于6%。

这项研究突破性地解决了随机参与场景下的FL质量评估难题。MSV机制不仅提供客户端的"质量指纹",其动态权重设计更开创了"以质定量"的新范式。实际应用中,该技术可部署于医疗联合诊断系统,在保护各医院数据隐私的同时,自动降低低质量医疗影像数据的影响;在智能交通领域,能有效过滤传感器异常数据,提升车联网模型的可靠性。未来研究可探索MSV与差分隐私的结合,以及在非独立同分布(Non-IID)数据场景下的拓展应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号