联邦学习(FL)作为一种去中心化的学习范式,允许多个客户端在不传输原始数据的情况下协作训练一个共享的全局模型(Pei, Liu, Li, Wang, & Liu, 2024)。由于其固有的隐私保护特性,FL在隐私敏感领域得到了广泛应用。
虽然FL在隐私保护方面的优势显而易见,但在实际应用中仍面临诸多挑战。FL面临的主要挑战之一是数据异质性,特别是客户端之间数据的非独立同分布特性(Lu, Pan, Dai, Si, & Zhang, 2024)。标签分布、特征空间和局部样本大小的差异会导致更新不一致、收敛速度变慢,甚至模型发散(Narula, Meena, & Vishwakarma, 2024),从而降低全局模型的性能和泛化能力。
为了解决FL中的非独立同分布数据问题,以往的研究探索了多个方向。其中一些代表性的方法包括:目标正则化方法(如FedProx Li et al., 2020及其变体Dinh et al., 2020;Ruan & Joe-Wong, 2022),通过引入近端项来约束局部更新,从而减少异构环境中的模型发散;以个性化为导向的方法(如MOON Li, He, & Song, 2021b和FedBN Li, Jiang, Zhang, Kamp, & Dou, 2021c;以及相关方法Mclaughlin & Su, 2024;Tan, Yu, Cui, & Yang, 2022),通过利用对比学习或应用局部批量归一化来提高对特定客户数据的适应性;基于聚类的框架(如CFL Sattler, Müller, & Samek, 2020和IFCA Ghosh, Chung, Yin, & Ramchandran, 2020;以及Li, Li, & Varshney, 2021a;Yan, Tong, & Wang, 2023),将数据分布相似的客户端分组,以便进行针对特定集群的训练,这在异质性具有结构化模式时尤为有效。
尽管这些方法推动了FL的发展,但它们通常分别处理异质性和隐私问题。更重要的是,现有的混合方法在应用于高度异构的环境时存在结构性限制。例如,MOON Li et al. (2021b)利用对比学习使局部表示与全局模型对齐,但在极端异质性场景中,这种全局模型往往成为冲突分布的“混乱”平均值;与这样的噪声锚对齐不可避免地会导致“负迁移”。此外,像IFCA Ghosh et al. (2020)或FedCCFA Chen, Xue, Wang, Liu, & Huang (2024a)这样的方法通常基于损失值或分类器头进行被动分组,这种方法忽略了特征空间的分布差异,并且对初始化噪声敏感。在隐私方面,现有的差分隐私机制通常依赖于固定阈值或启发式规则,而基于Shapley值的方法计算成本较高,导致难以实现效用-隐私的平衡。
这些局限性凸显了一个具体的研究空白:目前还没有一个统一的FL框架能够同时稳定地进行聚类、原型引导的对比对齐和基于贡献的自适应隐私保护。
为了填补这一空白,我们提出了FedCC,这是一个旨在同时处理数据异质性和隐私问题的统一框架。FedCC不依赖被动分组,而是采用基于稳定统计特征的自适应层次聚类。在每个集群内部,我们引入了集群感知的对比学习,使局部特征与精细的集群原型对齐,而不是全局模型,从而确保语义一致性。为防止模型发散,我们加入了近端正则化项。最后,为解决隐私-效用冲突,我们设计了SV-ADP,这是一种基于Shapley值的自适应差分隐私机制,它根据估计的贡献动态调整梯度裁剪,保护高质量客户的关键信息,同时确保严格的隐私保护。
我们的主要贡献总结如下:
•我们提出了FedCC,一个统一的联邦学习框架,能够同时处理数据异质性和个性化隐私保护。
•我们设计了一种集群感知的对比学习策略,用精细的集群原型替代噪声全局锚点,明确强制集群内部的表示一致性,以提高局部模型的区分能力。
•我们设计了SV-ADP,一种基于Shapley值的自适应差分隐私策略,根据客户贡献动态调整裁剪阈值和噪声水平,解决了统一差分隐私方法中固有的效用-隐私权衡问题。
•我们在多个非独立同分布的基准测试上进行了广泛实验,结果显示FedCC在准确性、收敛速度和稳定性方面均优于现有FL方法,证明了其在异构和隐私受限环境下的强大鲁棒性。