面向皮肤病变分类的异步与焦点联邦学习:应对本地数据稀缺与类别不平衡的创新解决方案

【字体: 时间:2025年09月14日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  为解决联邦学习(FL)在医疗物联网(IoMT)和远程医疗中面临的数据稀缺与类别不平衡问题,研究人员开展了异步与焦点更新的联邦学习算法研究。实验表明该方法在40轮训练后AUROC达到0.78-0.89,显著优于传统同步方法(0.57-0.67),为隐私保护的分布式医疗AI提供了有效解决方案。

  

在当今数字医疗快速发展的时代,医疗数据隐私保护与人工智能模型训练之间存在着难以调和的矛盾。传统的集中式机器学习需要将各医疗机构的患者数据汇集到中央服务器,这种做法不仅面临严格的数据监管壁垒(如GDPR),更存在重大的隐私泄露风险。联邦学习(Federated Learning, FL)作为一种新兴的分布式机器学习范式,允许在本地数据不离开原始节点的前提下协同训练模型,仅通过交换模型参数更新来实现知识共享,为医疗AI的发展提供了新的可能。

然而,现有的联邦学习研究大多基于理想化的假设场景:每个参与节点(如医院)都拥有大量且均衡的本地数据。这与现实世界中远程医疗和医疗物联网(Internet of Medical Things, IoMT)的应用场景相去甚远。在实际应用中,我们面临的是成千上万的个人用户节点,每个节点可能只贡献极少量的数据(数据稀缺),且数据分布极不均衡(类别不平衡)。例如在皮肤病变分类任务中,单个用户可能仅有一两张皮肤照片,且大多为常见病症,罕见病变的样本十分稀缺。

更令人担忧的是,当前大多数关于皮肤病变图像联邦学习的研究仍然沿用McMahan等人提出的模拟设置,将大型数据集(如ISIC-2019)分割成少量客户端(通常少于10个),每个客户端拥有超过5000个样本,这与真实世界的高度分布式场景严重不符。这种设置不仅无法反映真实应用中的数据分布特征,还需要数百甚至上千轮的通信轮次才能达到令人满意的性能,造成了巨大的通信开销和计算负担。

为了突破这些限制,来自香港大学的研究团队在《Computational Biology and Chemistry》上发表了创新性研究成果,提出了异步与焦点联邦学习方法,专门针对本地数据稀缺和类别不平衡的现实挑战。该研究不仅理论上创新,更在真实的皮肤病变分类任务上进行了全面验证,为联邦学习在数字健康领域的实际应用提供了重要参考。

研究人员采用了几项关键技术方法:首先利用PAD-UFES-20数据集中的1268张皮肤病变图像,模拟798个移动设备节点的分布式环境;设计了轻量级卷积神经网络模型以减少通信开销;开发了异步联邦学习框架,允许服务器在收到任何客户端的更新后立即更新全局模型,而非等待所有客户端;引入了版本相关的动态权重机制(wt+1 = wt + logc(ΔV + c)(wit+1 - wt))来缓解模型陈旧性问题;提出了焦点更新策略,基于本地推理结果(阈值θ=0.5)动态调整训练轮次,让模型更加关注难以分类的少数类别样本。

4.1. 同步更新的有效性依赖于本地数据的充足性

研究发现,同步联邦学习方法(如FedAvg、FedProx、FedNova)的性能高度依赖于每个节点拥有的数据量。当798个节点被聚合成10个节点(每个节点拥有充足数据)时,同步方法在经过100轮训练后性能接近集中式学习的基准水平(AUROC 0.9110)。但随着节点数量增加、每个节点数据量减少,同步方法的性能显著下降。当节点数达到400个(平均每个节点仅有约3个样本)时,同步方法几乎无法进行有效学习。相比之下,异步方法在不同聚合水平下都能保持稳定的学习能力,在150轮训练后达到0.85以上的AUROC值。

4.2. 提出的方法能有效联邦具有本地数据稀缺和类别不平衡的节点

与主流联邦学习方法相比,提出的异步焦点联邦学习方法表现出显著优势。在仅使用10%客户端的情况下,经过40轮训练,该方法达到了0.7757的AUROC值,明显优于FedAvg(0.57-0.67)、FedProx(0.63-0.66)和FedNova(0.64-0.67)。当客户端比例增加到0.5时,该方法性能提升至0.8857,非常接近集中式学习的基准性能。此外,在CIFAR-10数据集上的扩展实验进一步验证了方法的通用性和可扩展性。

4.3. 焦点更新改善了对少数类别的识别

通过混淆矩阵分析发现,焦点更新机制显著提升了模型对少数类别(黑色素细胞痣,NEV)的识别能力。在没有焦点更新的情况下,模型对NEV类别的召回率较低;而引入焦点更新后,不仅提升了对少数类别的识别率,还改善了对多数类别(基底细胞癌BCC和光化性角化病ACK)的分类精度。这种改进在客户端比例较低(0.2)时尤为明显,证明了焦点更新在高度不平衡环境中的有效性。

4.4. 版本相关权重减轻了陈旧全局模型的损害

实验模拟了客户端因网络延迟等原因使用陈旧全局模型的情况(版本差异ΔV服从均值为0、标准差为3的正态分布)。结果显示,陈旧模型的引入使测试AUROC从0.8761下降至0.7749。而采用提出的版本相关动态权重后,性能恢复至0.8345,有效缓解了陈旧模型带来的负面影响。延长训练轮次至100轮的实验进一步证实了该方法的稳定性。

研究结论与讨论部分指出,这项研究首次系统性地评估和比较了同步与异步联邦学习方法在高度分布式和不平衡环境中的性能表现。异步联邦学习通过允许独立模型更新和减少同步等待时间,在大规模异构环境中展现出明显优势。结合焦点更新机制,该方法能够有效应对真实医疗场景中的数据不平衡挑战。

研究的实际意义在于:首先,提出的轻量级卷积神经网络仅包含260,546个参数(约1.1MB存储空间),大大降低了边缘设备的计算负担和通信成本(1000个客户端40轮训练的总通信成本约87.68GB);其次,该方法为个人级别的联邦学习应用提供了技术基础,使得每个用户都能作为独立节点参与模型训练,真正实现隐私保护的分布式学习;最后,研究结果鼓励在更广泛的医疗场景中探索联邦学习的应用,推动数字健康解决方案的发展。

研究人员也坦诚指出了研究的局限性:当前假设所有参与节点都拥有已标注数据,而现实中可能存在大量未标注数据;低质量数据可能影响焦点更新的效果;缺乏实际的激励机制鼓励用户参与。未来的工作将探索半监督联邦学习框架、数据质量评估机制以及激励相容的参与方案,进一步推动联邦学习在真实医疗环境中的落地应用。

这项研究不仅为皮肤病变分类提供了有效的联邦学习解决方案,更为整个数字健康领域提供了重要的技术参考,推动了隐私保护与人工智能协同发展的创新实践。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号