编辑推荐:
在计算病理学中,病理图像标注存在成本高、易引入噪声等问题。研究人员开展了 BPAL(Beta Mixture Model and Penalized Regression for Active Learning)主动学习框架研究,有效识别噪声样本,减少标注成本,在乳腺癌和前列腺癌分类任务中表现出色,推动了该领域发展。
随着人工智能(AI)技术的飞速发展,其在医疗健康领域的应用也越来越广泛。在病理学诊断中,AI 的介入让数字化诊断成为可能,它能帮助医生更高效、精准地分析病理图像,在癌症诊断、转移检测、未知原发灶预测等方面发挥着重要作用。然而,看似前景光明的背后,却隐藏着诸多难题。
要让 AI 模型在病理诊断中表现出色,离不开大量高质量的标注数据。但获取这些标注数据的过程,可谓困难重重。标注病理图像需要专业的病理学家耗费大量时间和精力,他们不仅要经过多年的专业训练,具备深厚的医学知识,而且不同病理学家之间的标注结果还存在较大差异,这就导致在标注过程中很容易引入噪声样本。这些噪声样本会严重影响 AI 模型的性能,使得模型的诊断准确性大打折扣。
为了解决这些问题,不少科研人员开始探索新的方法。其中,弱监督学习曾被寄予厚望,它试图在标注数据不充分的情况下让模型学习,但由于监督不足,其性能远不如完全监督学习。而主动学习(AL)虽然能减少标注样本数量,降低标注成本,但在处理噪声标签方面却存在短板,如何有效识别并处理这些噪声样本,以及如何选择更具代表性的典型样本,一直是困扰科研人员的难题。
在这样的背景下,来自未知研究机构的研究人员开展了一项关于计算病理学主动学习的研究。他们提出了一种名为 BPAL(Beta Mixture Model and Penalized Regression for Active Learning)的全新主动学习框架,专门用于组织病理全切片图像分析。该研究取得了令人瞩目的成果,BPAL 框架在乳腺癌和前列腺癌分类任务中展现出了卓越的性能,不仅降低了专家标注成本,还极大地减轻了噪声样本对模型训练的影响。这一研究成果发表在《Biomedical Signal Processing and Control》上,为计算病理学领域带来了新的突破。
研究人员在开展这项研究时,运用了多种关键技术方法。首先,在数据方面,他们使用了乳腺癌语义分割(BCSS)数据集和来自 Kaggle 的前列腺癌分级评估(PANDA)挑战数据集进行主动学习模拟。在模型构建上,BPAL 框架集成了两个噪声检测模块。其中,结合了惩罚回归(PR)与并行计算能力,提高了噪声样本检测的效率;利用 Beta 混合模型(BMM)并结合先验损失知识,在合并的特征和标签空间中从多个角度进行全面分析,有效识别噪声样本。此外,还提出了一种启发式采样策略,根据样本的信息含量和置信度对样本进行分类处理。
下面来具体看看这项研究的结果:
- 噪声样本识别与处理:在 BPAL 框架的每次迭代中,网络先使用标注图像进行训练,记录每个样本的损失值。通过 BMM 对干净样本和噪声样本的损失进行建模,监测并对每个样本的概率进行排序。将概率较高的样本识别为噪声样本,概率较低的样本则作为置信样本保留下来。同时,将 PR 与 BMM 相结合进行并行计算,通过评估特征和标签空间中数据点之间的线性关系,利用平均偏移参数快速判断样本是否为噪声样本。这样就能准确识别并纠正错误标注的样本,同时保留复杂样本。
- 样本选择与训练集扩充:研究人员根据启发式采样策略,将高信息含量的样本分为三类。典型样本具有较高的置信度,可以赋予伪标签进行训练;困难样本由于特征复杂,需要专家重新标注;而误标注的噪声样本则被识别出来进行处理。在训练过程中,选择具有价值信息的未标注图像进行标注,并添加到训练集中,后续迭代时,训练集还会加入高置信度的未标注样本,并使用伪标注,从而在减少人工标注的情况下,提升了模型的分类性能。
研究结论表明,BPAL 框架为组织病理图像分析提供了一种高效的主动学习方法。它能够动态识别有意义的样本,准确区分噪声样本和困难样本,有效管理噪声样本对模型训练的影响。与以往的研究相比,BPAL 框架在减少标注工作量的同时,显著提升了模型的性能,为 AI 在计算病理学中的应用提供了更可靠的技术支持。
在讨论部分,研究人员指出,BPAL 框架的优势在于其创新性地将 BMM 损失先验与 PR 相结合,并统一了特征空间,这种方法在处理大量高信息含量的病理图像补丁时表现出色,克服了以往方法处理效率低、数据信息利用不充分的问题。此外,该框架还为未来计算病理学的研究提供了新的思路和方向,有望在更多疾病的诊断和研究中发挥重要作用。
总之,这项研究的成果具有重要意义。它不仅解决了计算病理学中病理图像标注面临的实际问题,提升了 AI 模型的诊断准确性,还为该领域的进一步发展奠定了坚实基础,为未来利用 AI 技术实现更精准、高效的医疗诊断提供了有力支撑。