
-
生物通官微
陪你抓住生命科技
跳动的脉搏
联邦全局引导伪标签技术:解决标签稀缺与非独立同分布场景下的预测偏差问题
【字体: 大 中 小 】 时间:2025年06月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对联邦半监督学习(FSSL)中因数据异构性和标注能力不平衡导致的预测偏差问题,研究人员提出联邦全局引导伪标签方法(FedGGp)。该方法通过全局概率评估重构伪标签生成策略,结合自适应阈值和软一致性正则化机制,在四个基准数据集上验证了其在标签稀缺和非独立同分布(Non-IID)场景下的优越性,为医疗健康、物联网等领域的隐私敏感数据建模提供了新思路。
在人工智能技术快速渗透医疗健康、金融和物联网等领域的今天,联邦学习(Federated Learning, FL)因其隐私保护特性成为分布式建模的主流范式。然而,现实场景中数据标注成本高昂且分布不均,催生了联邦半监督学习(Federated Semi-Supervised Learning, FSSL)的研究热潮。这种融合标注与未标注数据的协作训练模式,却面临两大"顽疾":客户端间的数据异构性(Non-IID)导致模型收敛困难,而标注能力差异更会引发伪标签生成时的预测偏差——某些类别被系统性地忽视,形成恶性循环。现有方法多依赖全标注客户端的基准模型,在标签稀缺场景中捉襟见肘。
针对这一挑战,研究人员开展了名为FedGGp的创新研究。该工作创造性地构建了全局概率评估体系,通过贝叶斯校准(Bayesian calibration)和指数平滑技术,在概率空间重构客户端预测偏差的量化指标。不同于传统基于类别频率的指导策略,这种概率映射方法有效规避了标注分布不平衡的干扰。具体实现中,对优势类别采用自适应阈值严格筛选高质量伪标签,而对弱势类别则通过软一致性正则化(soft consistency regularization)扩展决策边界附近的低置信度样本,形成层次化的伪标签生成机制。在CIFAR10、SVHN等四个基准数据集上的实验表明,FedGGp在标签稀缺和Non-IID复合场景下的准确率超越现有方法达3.8%-12.6%,尤其对弱势类别的识别率提升显著。
关键技术方法包括:1) 基于贝叶斯校准的全局概率评估框架;2) 融合指数平滑的动态阈值调整算法;3) 针对决策边界样本的软一致性正则化设计。实验采用轻量化ResNet网络,在模拟医疗影像和物联网设备数据的四种图像数据集上,对比了六种前沿FSSL方法的性能表现。
研究结果部分揭示:
《Federated Globally Guided Pseudo-labeling》通过概率空间映射,将客户端局部预测与全局评估解耦,实验显示该方法在CIFAR100上弱势类别的召回率提升19.2%。
《Experimental Setup》证实FedGGp在仅10%标注比例的极端条件下,仍能保持85.7%的宏观平均准确率,显著优于基线方法FedAvg的72.3%。
《Conclusion》指出该框架的普适性优势——无需预设类别分布先验,仅通过迭代过程中的概率动态调整即可实现偏差矫正。
这项发表于《Expert Systems with Applications》的研究具有双重突破意义:方法论层面,首次将概率空间评估引入FSSL的伪标签生成环节,为数据异构性研究开辟新视角;应用层面,其不依赖全标注基准的特性,使医疗健康等隐私敏感领域的弱标注数据价值挖掘成为可能。正如作者Yuan Xi所述,FedGGp展现的"全局视野-局部修正"范式,或将成为下一代联邦学习算法的重要设计原则。
生物通微信公众号
知名企业招聘