FedCC:在非独立同分布(non-IID)环境下,结合自适应差分隐私技术的联邦集群感知对比学习

《Expert Systems with Applications》:FedCC: Federated Cluster-Aware Contrastive Learning with Adaptive Differential Privacy under non-IID Settings

【字体: 时间:2025年12月28日 来源:Expert Systems with Applications 7.5

编辑推荐:

  提出FedCC框架,通过自适应聚类捕捉数据相似性,结合簇感知对比学习提升非独立同分布数据下的模型鲁棒性和泛化能力,并引入基于Shapley值的自适应差分隐私机制平衡隐私与效用。实验表明FedCC在多个非IID基准数据集上显著优于现有方法,全局准确率平均提升7.35%,且在强隐私约束下仍保持优势。

  
Ruilong Yuan|Yong Feng|Nianbo Liu|Yingna Li|Xiaodong Fu
中国云南省昆明市昆明科技大学信息工程与自动化学院

摘要

联邦学习(FL)允许在不共享原始数据的情况下进行协作式模型训练,然而客户端之间的统计异质性,尤其是非独立同分布(non-IID)情况,仍然是导致准确率和泛化能力下降的主要原因。尽管近期取得了显著进展,现有方法仍难以实现良好的效用-隐私权衡。为了解决这一问题,我们提出了联邦集群感知对比学习(FedCC)框架,该框架在非独立同分布环境下提高了模型的鲁棒性和泛化能力,同时有效平衡了隐私和效用。FedCC首先执行自适应客户端聚类以捕捉潜在的相似性,然后应用集群感知的对比目标,以在保持集群内部一致性的同时保留集群间的多样性。为了对抗对比学习引起的漂移,我们引入了一个近端正则化项,使局部更新与全局模型保持一致。此外,我们开发了一种基于Shapley值的自适应差分隐私机制,根据每个客户的贡献量来个性化噪声注入,从而在减少效用损失的同时提供更强的隐私保护。在五个非独立同分布基准测试上的广泛实验表明,FedCC的性能优于现有方法,平均全局准确率提高了7.35%,最佳情况下提高了21.41%。值得注意的是,FedCC在严格的隐私约束下仍能保持其优势,证明了它在效用和隐私之间的有效平衡。

引言

联邦学习(FL)作为一种去中心化的学习范式,允许多个客户端在不传输原始数据的情况下协作训练一个共享的全局模型(Pei, Liu, Li, Wang, & Liu, 2024)。由于其固有的隐私保护特性,FL在隐私敏感领域得到了广泛应用。
虽然FL在隐私保护方面的优势显而易见,但在实际应用中仍面临诸多挑战。FL面临的主要挑战之一是数据异质性,特别是客户端之间数据的非独立同分布特性(Lu, Pan, Dai, Si, & Zhang, 2024)。标签分布、特征空间和局部样本大小的差异会导致更新不一致、收敛速度变慢,甚至模型发散(Narula, Meena, & Vishwakarma, 2024),从而降低全局模型的性能和泛化能力。
为了解决FL中的非独立同分布数据问题,以往的研究探索了多个方向。其中一些代表性的方法包括:目标正则化方法(如FedProx Li et al., 2020及其变体Dinh et al., 2020;Ruan & Joe-Wong, 2022),通过引入近端项来约束局部更新,从而减少异构环境中的模型发散;以个性化为导向的方法(如MOON Li, He, & Song, 2021b和FedBN Li, Jiang, Zhang, Kamp, & Dou, 2021c;以及相关方法Mclaughlin & Su, 2024;Tan, Yu, Cui, & Yang, 2022),通过利用对比学习或应用局部批量归一化来提高对特定客户数据的适应性;基于聚类的框架(如CFL Sattler, Müller, & Samek, 2020和IFCA Ghosh, Chung, Yin, & Ramchandran, 2020;以及Li, Li, & Varshney, 2021a;Yan, Tong, & Wang, 2023),将数据分布相似的客户端分组,以便进行针对特定集群的训练,这在异质性具有结构化模式时尤为有效。
尽管这些方法推动了FL的发展,但它们通常分别处理异质性和隐私问题。更重要的是,现有的混合方法在应用于高度异构的环境时存在结构性限制。例如,MOON Li et al. (2021b)利用对比学习使局部表示与全局模型对齐,但在极端异质性场景中,这种全局模型往往成为冲突分布的“混乱”平均值;与这样的噪声锚对齐不可避免地会导致“负迁移”。此外,像IFCA Ghosh et al. (2020)或FedCCFA Chen, Xue, Wang, Liu, & Huang (2024a)这样的方法通常基于损失值或分类器头进行被动分组,这种方法忽略了特征空间的分布差异,并且对初始化噪声敏感。在隐私方面,现有的差分隐私机制通常依赖于固定阈值或启发式规则,而基于Shapley值的方法计算成本较高,导致难以实现效用-隐私的平衡。
这些局限性凸显了一个具体的研究空白:目前还没有一个统一的FL框架能够同时稳定地进行聚类、原型引导的对比对齐和基于贡献的自适应隐私保护。
为了填补这一空白,我们提出了FedCC,这是一个旨在同时处理数据异质性和隐私问题的统一框架。FedCC不依赖被动分组,而是采用基于稳定统计特征的自适应层次聚类。在每个集群内部,我们引入了集群感知的对比学习,使局部特征与精细的集群原型对齐,而不是全局模型,从而确保语义一致性。为防止模型发散,我们加入了近端正则化项。最后,为解决隐私-效用冲突,我们设计了SV-ADP,这是一种基于Shapley值的自适应差分隐私机制,它根据估计的贡献动态调整梯度裁剪,保护高质量客户的关键信息,同时确保严格的隐私保护。
我们的主要贡献总结如下:
  • 我们提出了FedCC,一个统一的联邦学习框架,能够同时处理数据异质性和个性化隐私保护。
  • 我们设计了一种集群感知的对比学习策略,用精细的集群原型替代噪声全局锚点,明确强制集群内部的表示一致性,以提高局部模型的区分能力。
  • 我们设计了SV-ADP,一种基于Shapley值的自适应差分隐私策略,根据客户贡献动态调整裁剪阈值和噪声水平,解决了统一差分隐私方法中固有的效用-隐私权衡问题。
  • 我们在多个非独立同分布的基准测试上进行了广泛实验,结果显示FedCC在准确性、收敛速度和稳定性方面均优于现有FL方法,证明了其在异构和隐私受限环境下的强大鲁棒性。
  • 本文的其余部分安排如下:第2节回顾相关工作和最新进展;第3节介绍关键定义和初步概念;第4节详细阐述提出的FedCC算法;第5节提供实验评估和分析;第6节总结本文并展望未来研究方向。

    相关研究

    相关工作

    尽管联邦学习(FL)实现了去中心化训练,但它面临两个持续的瓶颈:(1)由统计数据异质性引起的性能下降;(2)通信过程中的隐私泄露风险。虽然已有大量研究分别解决了这些问题,但同时解决这两个问题的统一框架仍然较少。本节回顾了这两个领域的最新进展。

    联邦学习

    联邦学习的核心思想是允许多个客户端使用各自的私有数据集协作训练模型,同时仅与中央服务器共享模型参数,而不传输原始数据。这种方法确保了数据隔离和隐私保护。通过在服务器上聚合局部模型更新,FL构建了一个更加稳健的全局模型,同时保护了用户隐私和数据安全。
    一个典型的FL系统包括一个中央服务器和多个客户端。

    系统框架

    传统的FL在处理非独立同分布数据时,常常面临模型性能下降、收敛速度慢和潜在的隐私泄露问题。为了解决这些问题,我们提出了一个结合对比学习和自适应差分隐私的新FL框架。该框架旨在减轻数据异质性的影响,同时保持隐私保护和模型有效性。
    该框架的整个流程如图1所示。

    实验设置

    (1)数据集:我们在五个数据集上进行实验:MNIST、CIFAR-10、Fashion-MNIST和Shakespeare Caldas等人(2018)的数据集,以评估所提方法在非独立同分布环境下的性能和适应性。
    为了模拟现实世界的数据异质性,我们使用Dirichlet分布Dir(α)对MNIST、CIFAR-10和Fashion-MNIST数据集进行划分,其中Dirichlet参数α控制异质性的程度。我们设置
    α={0.01,0.1,0.3,0.5

    结论

    本研究提出了FedCC,这是一个强大的联邦学习框架,通过数据驱动的客户端聚类、集群感知的对比学习和基于Shapley值的自适应差分隐私来处理数据异质性和隐私问题。广泛的结果验证了FedCC在五个异构数据集上的优越性,无论是在准确性还是稳定性方面都有显著提升。这些能力表明FedCC在现实应用中的可行性。

    未引用的参考文献

    缺失的参考文献表1

    CRediT作者贡献声明

    Ruilong Yuan:撰写——原始草稿、方法论、软件开发。Yong Feng:撰写——原始草稿、资金获取、项目管理。Nianbo Liu:形式分析、数据整理、验证。Yingna Li:撰写——审稿与编辑、项目管理、监督、资金获取。Xiaodong Fu:撰写——审稿与编辑、资金获取、监督。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号