在极端数据异构性环境下，用于实现鲁棒联邦学习的混淆校正交叉熵与类别专用聚合方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Confusion-Calibrated Cross-Entropy and Class-Specialized Aggregation for Robust Federated Learning under Extreme Data Heterogeneity

【字体：大中小】 时间：2026年02月08日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　联邦学习框架FedCA通过动态校准的C3E损失函数和优先困难类别的聚合机制解决数据异构性问题，包括标签分布不平衡、缺失类别和数据稀缺性，显著提升准确率和公平性。

Sujit Chowdhury | Raju Halder

印度理工学院，帕特纳，印度

摘要

联邦学习（FL）能够在不交换原始数据的情况下，实现跨分散设备的隐私保护式协作模型训练。然而，其有效性受到数据异质性的严重阻碍——特别是标签分布不平衡、缺失类别以及数据稀疏性——这些因素导致模型发散、泛化能力差以及不同类别之间的性能不公平。传统的FL方法依赖于统一的聚合和标准损失函数，无法考虑局部偏差和类别级别的挑战，因此在现实的数据异质性条件下会导致灾难性的性能下降。为此，我们提出了FedCA，这是一种联邦学习框架，通过两个协同组件共同缓解标签不平衡、缺失类别和数据稀疏性问题：一个是用于客户端训练的混淆校正交叉熵（C3E）损失函数，另一个是服务器端的优先处理困难类别的top-k聚合方案。C3E通过使用自适应的、设备上的软混淆矩阵动态校准局部目标，惩罚持续的错误分类以纠正客户端级别的偏差。此外，聚合模块利用来自客户端的紧凑困难信号来优先更新联邦中最具挑战性的类别，从而提高鲁棒性和公平性。在MNIST、CIFAR-10和CIFAR-100上的广泛实验表明，FedCA显著优于现有的最佳基线方法。在极端标签分布不平衡的情况下，FedCA在CIFAR-10上实现了20.12%的绝对准确率优势。当客户端仅持有两个类别时（这是基线方法无法实现的场景），FedCA仍保持了63.1%的准确率，并且所需的轮次最多减少了4倍。这些结果验证了FedCA作为一种在现实数据异质性条件下性能优异、通信高效且鲁棒的联邦学习解决方案的有效性。

引言

联邦学习（FL）[1]作为一种分布式模型训练的 promising 模式出现，它允许多个客户端在不交换原始数据的情况下协作学习一个共享的全局模型。这种去中心化的方法平衡了隐私和实用性，使其适用于医疗保健、物联网（IoT）和多组织协作等大规模应用。尽管有这些优势，FL的性能往往受到数据异质性的限制，这是由于客户端数据集的非独立同分布（non-IID）性质引起的根本挑战。在实践中，数据异质性表现为多种形式：（i）标签偏斜，即不同客户端之间的类别分布差异很大；（ii）缺失类别，即某些类别在某些客户端上完全不存在；（iii）数量偏斜，即每个客户端的数据量差异显著。这些条件导致局部更新偏差、收敛缓慢以及全局泛化能力差。此外，它们还加剧了客户端之间的差异，导致对主导数据源的过拟合和对稀有或少数类别的性能不足。有效解决这些相互关联的问题是联邦优化中的一个核心目标。

在过去几年中，许多努力试图减轻数据异质性的不利影响。开创性的FedAvg [1]引入了FL的标准聚合框架，但其简单的平均方案在强非独立同分布（non-IID）条件下表现不佳。后续方法如FedProx [2]、FedDyn [3] 和 FedDC [4]结合了正则化来稳定局部优化，并使客户端目标与全局模型保持一致。类似地，基于方差减少和动量的方法如SCAFFOLD [5]、FedPVR [6] 和 FedAvgM [7]旨在减少局部和全局梯度之间的差异。表示驱动的方法如MOON [8] 和 FedBN [9] 通过调整客户端表示或应用基于归一化的校准进一步提高了一致性。虽然这些框架减轻了客户端漂移并提高了稳定性，但它们本质上是类别不可知的：聚合过程无法区分哪些类别或混淆对整体模型退化贡献最大。同时，也探索了几种成本敏感和平衡类别的策略来对抗标签偏斜。Focal Loss [10]通过降低容易样本的权重来强调困难样本，Class-Balanced Loss [11]使用有效数量加权来补偿类别频率不平衡。类似地，FedLC [12]根据标签分布调整logits以处理类别优先级失衡问题。尽管这些方法在减轻不平衡方面取得了成功，但它们本质上是静态的且以类别为中心的：它们假设错误结构是对称的，无法捕捉到成对混淆的不对称和时变性质。此外，虽然它们改进了局部校准，但并未与决定局部更新如何影响全局模型的聚合机制相结合。因此，这些方法未能共同解决联邦环境中固有的不对称、动态和类别特定的挑战。

仔细观察这些限制可以发现一个重要见解：错误分类模式编码了关于潜在异质性的宝贵信息。特定类别之间的持续混淆反映了联邦集体面临的困难区域，这通常是由于类别表示有偏差或不足造成的。然而，大多数现有的FL框架忽略了这些不断变化的混淆动态——既不根据混淆统计调整局部目标，也不根据类别特定难度指导聚合。这种脱节激发了一种方法的需求，该方法能够（i）在客户端级别动态建模成对错误分类的不对称性，（ii）通过紧凑信号总结类别级别的学习难度，（iii）利用这些信号指导优先考虑类别的聚合，而不增加通信开销。为此，我们提出了FedCA，这是一种将局部混淆建模与全局聚合优先级统计结合的联邦学习框架。FedCA引入了两个协同工作的互补组件。首先，混淆校正交叉熵（C3E）作为一个动态的、成本敏感的局部目标。它维护了一个指数移动平均（EMA）的软混淆矩阵，该矩阵编码了成对不对称的错误分类成本，允许每个客户端适应性地惩罚持续或系统性的混淆。虽然相关想法已经通过类别转换（噪声）建模和损失校正（例如，估计真实标签和观察标签之间的转换矩阵）[13]、[14]在集中式学习中进行了探索，但C3E的联邦适应是新颖的：（i）它使用EMA平滑技术在客户端级别的稀疏性、缺失类别和间歇性参与下使混淆估计可靠；（ii）它通过仅传输保护隐私的“困难信号”而不是原始混淆矩阵来将混淆估计与聚合分离。此外，C3E还包括一个先验偏差项来校正类别频率的变化，以及一个基于混淆的边界来锐化经常混淆的类别之间的决策边界。其次，在服务器端，FedCA采用了优先处理困难类别的top-k聚合方案。每个客户端生成一个紧凑的困难信号——从其混淆统计中得出的每个类别的剩余难度摘要。服务器识别出联邦中k个最困难的类别，并对这些关键类别表现更好的客户端模型赋予更高的权重进行聚合。最终的全局模型是通过平均这些针对类别的子模型获得的，将学习方向引导到错误最易发生的区域。这种紧密耦合混淆感知的局部学习和优先考虑类别的聚合使得FedCA能够在不增加额外通信成本的情况下，持续将局部优化与全局目标对齐。通过利用混淆的演变结构，FedCA提高了少数类别的准确率，加速了收敛速度，并在多样化的非独立同分布（non-IID）设置中实现了更高的客户端和类别间的公平性。

本工作的主要贡献总结如下：

我们提出了FedCA，一种新颖的联邦学习框架，它将混淆感知的局部目标与优先考虑类别的聚合结合起来，以通信高效的方式解决标签偏斜、缺失类别和数量偏斜问题。
我们引入了混淆校正交叉熵（C3E），这是一种动态损失函数，它从软混淆矩阵的EMA中学习成对不对称的错误分类成本，并增加了先验偏差和混淆边界校准。
我们开发了一种优先处理困难类别的top-k聚合机制，该机制优先考虑在最具挑战性的类别上表现更好的客户端的更新，从而提高了全局的鲁棒性和公平性。
我们提供了理论分析，证明了C3E的局部改进保证以及FedCA全局模型更快的预期收敛速度。
通过在MNIST、CIFAR-10和CIFAR-100上使用多种架构的广泛实验，我们证明了FedCA在准确性、收敛速度和少数类别性能方面始终优于现有的最佳基线方法，包括FedAvg、FedProx、CCVR、Ditto、MOON、FedSAM、q-FFL和FedFA——无论是在何种非独立同分布（non-IID）环境下。

FedCA：提出的联邦学习方法

FedCA通过两个紧密耦合的组件解决了联邦学习中的三种主要数据异质性问题：标签偏斜、缺失类别和数量偏斜：（1）用于客户端优化的混淆校正交叉熵（C3E）损失函数，以及（2）用于服务器端模型融合的优先处理困难类别的top-k聚合方案。图1展示了整体架构。每个客户端动态估计其演变的混淆结构以细化局部目标，同时

收敛性分析

我们在标准的联邦优化假设下为FedCA建立了理论收敛保证：局部目标的L-平滑性、有界的梯度方差σ2和客户端之间的梯度差异ζ2。我们的分析考虑了C3E局部损失和类别优先级聚合机制。直观地说，FedCA的收敛是由两种互补力量驱动的。在局部，C3E损失惩罚了模糊的决策边界，有效地增加了下降速度

实验评估

本节对提出的FedCA框架进行了全面的实验验证。我们在由Dirichlet分布控制的不同非独立同分布（non-IID）严重程度下评估了其有效性，并在模拟极端异质性的受控固定类别每客户端场景中进行了评估。所有结果都与在相同设置下的著名联邦学习基线进行了比较，以确保公平性和可重复性。

数据异质性分析

为了理解数据异质性对联邦学习性能的影响，我们分析了在不同非独立同分布（non-IID）条件下客户端之间的标签分布。图2展示了三种数据集（Fashion-MNIST、CIFAR-10和CIFAR-100）在不同Dirichlet浓度参数（β）下的客户端级标签分布。分析揭示了几个关键观察结果：（1）随着β从0.3降至0.05，数据异质性显著增加，客户端持有的

结论和未来展望

在本文中，我们提出了一种新颖的联邦学习框架，通过一种统计上合理的方法解决了数据异质性的普遍挑战——包括标签分布偏斜、缺失类别和数据稀疏性——该方法将混淆感知的局部训练与优先考虑类别的全局聚合紧密结合。我们通过引入两个协同组件实现了这一点：（1）混淆校正交叉熵（C3E）损失，它动态调整客户端目标

CRediT作者贡献声明

Sujit Chowdhury：撰写——审阅与编辑、撰写——原始草稿、可视化、验证、软件、项目管理、方法论、调查、形式分析、数据策划、概念化。Raju Halder：撰写——审阅与编辑、撰写——原始草稿、可视化、验证、监督、资源管理、方法论、调查、资金获取、形式分析、概念化。

利益冲突声明

编号：KNOSYS-D-25-20273 作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作