由多知识蒸馏驱动的异构联邦学习

《IEEE Journal on Miniaturization for Air and Space Systems》:Heterogeneous Federated Learning Driven by Multi-Knowledge Distillation

【字体: 时间:2025年11月28日 来源:IEEE Journal on Miniaturization for Air and Space Systems 2.1

编辑推荐:

  针对联邦学习异构场景中模型结构差异与数据分布非独立同分布(Non-IID)导致的联合学习阻塞问题,提出FedMkd框架,通过类粒度logits交互架构(CLIA)和温度自适应知识蒸馏(TAKD)结合类相关知识蒸馏(CRKD),有效降低通信开销并提升模型性能,实验验证优于基线方法。

  

摘要:

在完全异构的联邦学习环境中,客户端在模型结构和本地数据分布方面存在显著差异(非独立同分布,Non-IID),由于在异构场景中可用于交互的通信内容有限,客户端模型的联合学习受到阻碍。在这种情况下,服务器通过简单聚合客户端logits构建的全局知识本质上是一种包含大量噪声和信息损失的模糊表示,难以有效指导客户端模型的更新。为了解决这些问题,本文提出了一种基于多知识蒸馏融合的异构联邦学习框架(FedMkd),以应对异构环境中的多种挑战。FedMkd框架采用了类级logits交互架构(CLIA),并引入了一种高效的知识共享机制。它创新性地整合了两种知识蒸馏方法:1)温度自适应知识蒸馏(TAKD),通过自适应调整蒸馏温度为教师模型和学生模型提供不同的温度,从而最大化它们之间的知识传递;2)类相关知识蒸馏(CRKD),通过引入批量级样本相关性损失来减少对特定样本或类别的过度依赖,并提高模型对整体数据特征的理解。我们在四个公共数据集上进行了大量实验。结果表明,在各种数据和模型异构场景中,当通信开销降低一个数量级以上时,FedMkd的性能仍然优于对比方法。

引言

作为一种保护隐私的分布式学习范式,联邦学习已在许多领域得到广泛应用,如医疗保健[1]、工业制造[2]等。在实际应用中,联邦学习客户端的模型异构性已成为一个不可忽视的关键问题。例如,在智能医疗保健领域,由于业务需求和隐私保护的原因,不同的医疗机构采用了完全不同的模型[3]。同时,不同的设备(如智能手机和可穿戴设备)也需要根据计算资源和数据特征的双重差异来适应不同的模型架构[4]。模型的异构性直接导致传统的参数平均策略无法用于模型训练,这使得模型间的知识传递和聚合面临理论和技术上的瓶颈。因此,为了满足不同用户行为和设备功能的需求,需要部署一种能够在异构硬件、数据分布不均以及模型能力不同的条件下进行调整且具有良好可扩展性的训练框架[5]、[6]、[7]、[8]。异构联邦学习(HtFL)框架应运而生,旨在同时解决数据和模型的异构性问题[9]、[10]。该框架除了共享整个客户端模型外,还探索了其他新的知识共享方案,并改变了主流的参数交互协议。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号