自监督学习助力分布式机器学习:精准识别与消除医学图像分析中的有害数据集

【字体: 时间:2025年02月17日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决分布式机器学习中医疗图像数据质量控制难题,加拿大卡尔加里大学 Raissa Souza 等人开展相关研究。结果显示,该自监督方法能有效识别并消除有害数据。这为分布式学习数据质量把控提供新途径,强烈推荐科研读者阅读。

  

加拿大卡尔加里大学卡明医学院放射学系(Department of Radiology, Cumming School of Medicine, University of Calgary)的研究人员 Raissa Souza 等人在《npj Digital Medicine》期刊上发表了题为 “Self-supervised identification and elimination of harmful datasets in distributed machine learning for medical image analysis” 的论文。这篇论文在医学图像分析的分布式机器学习领域意义重大,为解决数据质量控制问题提供了创新的方法,有望推动该领域从研究走向临床实践的进程。


研究背景


在过去十年,机器学习(ML)已成为解决复杂医学图像分析任务的重要工具,它旨在辅助临床决策、减轻临床工作量,并帮助医疗专业人员更好地安排患者诊疗顺序。现代 ML 模型的有效性在很大程度上依赖于训练数据集的数量、多样性和质量。高质量、大规模且多样的数据集能让模型学习到更具泛化性的特征,减少过拟合的风险。然而,合适的公开可用数据仅局限于少数疾病或基于人群的研究,许多医学中心没有足够的数据来单独训练针对特定疾病的 ML 模型,尤其是对于罕见病或偏远、医疗资源不足地区的中心而言。因此,跨机构合作收集大量数据至关重要,像阿尔茨海默病神经影像学倡议(Alzheimer’s Disease Neuroimaging Initiative,ADNI)和帕金森病进展标记物倡议(Parkinson’s Progression Markers Initiative,PPMI)数据存储库的建立,就是成功合作推动医疗研究和高级 ML 模型训练的典范。


但由于隐私法规禁止数据共享,创建这些数据存储库成本高昂、耗时久且往往不切实际。在这种情况下,分布式学习应运而生。分布式学习允许在不进行跨机构数据共享的情况下进行协作式机器学习模型训练,能更好地保护隐私。其核心思想是各中心在本地训练 ML 模型,数据不出中心。其中,联邦学习(Federated Learning,FL)和移动模型(Travelling Model,TM)是两种常见的分布式学习方法。FL 中各中心并行训练模型,定期将本地模型参数发送到中央服务器进行聚合再分发;TM 则是一个模型依次在不同中心进行训练,更适合小数据集中心参与。


尽管分布式学习在研究场景中已被证明可行且取得了一定成功,但在实际临床应用中仍面临诸多与数据相关的挑战。许多分布式学习方法默认本地中心提供高质量数据,却没有正式的检查和控制方法。医学图像数据质量会显著影响 ML 模型性能,就如同影响人类专家的诊断准确性一样。而且图像质量是个复杂问题,各中心对高质量图像的定义主观且不同,同时标准的人工视觉检查质量控制过程与分布式学习限制数据访问的原则相冲突。虽然此前已开发出一些自动图像质量评估工具,但这些工具使用的质量评估指标与图像影响 ML 模型诊断准确性的能力并无内在联系,其基于信噪比或伪影等参数设定的质量阈值也并非最佳指标。此外,分布式学习社区尚未深入探索如何系统检查和确保分布式数据的质量,之前的研究主要集中在恶意中心加入网络对模型行为的影响,且这些方法大多针对 FL 设置,无法应用于 TM,也没有针对单个数据样本质量控制的方法。因此,迫切需要一种能自动识别潜在有害数据(如低质量图像、错误的图像模态或错误解剖区域的图像)的方法,以推动分布式学习从研究走向临床实践。


研究方法


研究团队提出了一种全新的自监督方法,该方法在 TM 设置下,无需人工检查,就能自动识别并排除中心训练集中的有害数据样本。有害数据样本被定义为那些在训练中会降低模型准确性、增加误诊率的数据。


为实现这一目标,研究人员在传统 TM 概念的基础上引入了三个新步骤:数据验证、数据复查和数据消除。在数据验证步骤中,每个中心使用留出测试集(hold-out test set)评估训练后的模型,识别出可能有害的图像,并将其添加到复查列表中。有害图像指的是那些在训练过程中会使误诊率超过可接受误差阈值的图像。在后续的本地训练周期中,复查列表中的图像会被跳过,直到复查周期到来。数据复查步骤至关重要,它能避免因中心访问顺序等因素导致图像被误删。在复查时,会再次对潜在有害图像进行验证,如果图像仍对模型性能产生负面影响,就会将其从可用训练数据池中完全消除;反之,则将其返回训练数据池。数据消除步骤会将标记为消除的图像从相应中心的训练池中移除,该图像未来不再用于训练或验证。如果一个中心在消除步骤后训练池中没有数据了,它也会被从未来的移动序列中省略。


研究人员采用了一个已有的基于 T1 加权脑磁共振成像(MRI)数据的帕金森病(PD)分类 TM 模型来评估该质量控制方法。实验使用了来自 83 个真实中心的 PD 数据网络,这些数据包含了健康参与者和 PD 患者的 T1 加权脑 MRI 扫描。为了模拟有害数据对模型的影响,研究人员引入了三种类型的有害数据样本:反转的 T1 加权 MRI、噪声图像和胸部计算机断层扫描(CT)数据。实验设置了三种场景:第一种场景是引入三个中心,其本地数据集全部由有害图像样本组成;第二种场景是在 83 个中心中的 9 个较大数据集中心,每个中心随机加入一个有害图像样本;第三种场景是使用原始 83 个中心的数据,假设提供的是正确的 T1 加权脑 MRI 图像,识别手动质量控制中遗漏的潜在有害数据。在实验中,研究人员还探讨了不同的误差阈值(2%、3%、4% 和 5%)和复查周期(2 和 5)对模型性能的影响,并设置了 “干净” 基线(仅使用 83 个提供 T1 加权脑 MRI 扫描的中心数据训练模型)、“脏” 基线(包含有害数据样本的模型训练)和预训练模型作为对比。


研究结果


  1. 识别提供完全有害数据样本的中心:在第一种场景实验中,所有超参数组合都能立即有效识别出提供完全有害数据样本的三个中心,模型性能超越了 “脏” 基线和预训练模型。当将可接受误差阈值设置为 2%,并在两个周期后复查潜在有害数据时,模型在所有指标上表现最佳,与 “干净” 基线相当。这表明该方法能有效识别并排除恶意中心提供的有害数据,保障模型训练不受其干扰。

  2. 识别良好本地数据集中的有害数据:第二种场景实验凸显了在大量良好本地数据集中识别单个有害数据样本的难度。较小的可接受误差阈值(2% 和 3%)能更有效地标记和移除所有有害图像样本。较大的误差阈值(4% 和 5%)会遗漏更多反转 MRI 样本。综合来看,设置 3% 的误差阈值并在两个周期后复查潜在有害数据,模型在所有指标上表现最佳,与 “干净” 基线相当。而较大误差阈值会导致模型性能与 “脏” 基线相近,不如预训练模型。这说明在处理这种情况时,需要更严格的误差阈值和合适的复查周期来保证模型性能。

  3. 验证实验和识别具有挑战性的有害数据类型:研究人员进行了六次消融研究,结果表明每个有害数据样本都能被识别和消除,再次证明小误差阈值在识别有害数据样本方面的有效性。使用质量控制的 TM 模型在所有实验中都提高了模型性能,指标在 “干净” 基线的上下限范围内。这进一步验证了该方法对不同类型有害数据的识别和处理能力。

  4. 在真实帕金森病网络中识别有害数据:研究发现,2% 和 3% 的可接受误差阈值以及两个周期后的复查,在识别真实 PD 数据网络中潜在有害数据方面是有效的。但 2% 的误差阈值限制过严,会导致训练数据不足。3% 的阈值则能在有效移除有害数据样本的同时,保持模型性能在 “干净” 基线范围内,并减少训练周期。对被排除数据集的详细视觉检查发现,其中存在图像质量差、模糊、空间分辨率低、微出血和脑室严重扩大等问题。这表明该方法能成功识别和处理实际数据中的质量问题,即使是手动质量控制可能遗漏的数据问题也能被发现。


研究结论与讨论


这项研究首次提出了一种自监督且完全数据驱动的方法,用于在分布式 ML 训练中识别单病例和整个中心的有害数据样本。通过在 TM 方法中融入数据验证、数据复查和数据消除三个关键步骤,研究人员能够有效地识别和移除有害数据,避免这些数据对帕金森病误诊率的影响,确保只有高质量和准确的数据用于训练,提升最终模型的性能。


研究发现,识别提供完全有害数据样本的中心比在大量良好数据中检测单个有害数据样本更容易。对于反转 MRI 这种最具挑战性的有害图像类型,小阈值在识别它时同样有效。虽然该方法成功识别和消除了低质量、与 PD 无关特征以及可能分布异常的图像,但使用过小的阈值可能会过度限制数据,导致训练数据不足。因此,选择合适的超参数取决于所贡献数据的整体可靠性和质量,在其他应用场景中可能需要通过网格搜索或其他技术来确定。


与其他自监督方法不同,该研究中的自监督质量控制方法在确定成像质量时从未使用过标记数据,而是通过评估误报率和漏报率来判断图像是否有害。此外,这项研究不仅为分散式数据质量控制提供了新方法,还有助于开发更合理的奖励机制。传统上,评估医疗中心数据贡献价值常依据数据数量,但数据数量与模型价值的关系复杂,小中心数据可能因独特性对模型更有价值。基于该研究方法,研究人员可评估每个数据集与任务的相关性,为更公平的奖励机制奠定基础。


然而,这项研究也存在一些局限性。数据质量控制的三个步骤增加了训练时间,且每个中心都需要留出测试集,未来研究应致力于降低通信成本和减少对留出测试集的需求。实验仅考虑了三种类型的有害数据,还需探索更多可能影响 ML 模型的低质量数据类型。研究仅使用了一个用于 PD 诊断的 TM 模型,未来需研究不同分布式学习方法、ML 架构和临床任务下该方法的有效性。虽然通过多次训练周期和周期间的可变性解决了顺序训练中可能出现的灾难性遗忘问题,但仍需建立量化灾难性遗忘的方法。此外,研究在单台计算机上进行,未来可探索在云计算或基于内联网的计算机网络等不同部署策略下该方法的效果。尽管如此,该方法与数据类型和任务无关,不仅适用于医学图像分析,还可应用于分布式学习环境下的非医学图像分析,为保障各领域数据质量提供了有力支持。


总体而言,这项研究为分布式机器学习在医学图像分析中的应用带来了重要突破,其提出的方法和发现为后续研究和临床实践提供了宝贵的参考,有望推动该领域的进一步发展,让分布式学习更好地服务于医疗健康事业。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号