半弱监督学习:以更少标注实现肺栓塞诊断的高性能突破

【字体: 时间:2025年05月08日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决医学影像标注资源耗费大的问题,研究人员开展肺栓塞(PE)检测的半弱监督学习研究。结果显示,半弱监督模型用约四分之一切片级标签,AUC 达 0.928 ,接近全监督模型。该研究有助于加速模型临床应用,提升医疗水平。

  在医学领域,机器学习(ML)正逐渐展现出变革医疗保健和医学影像的巨大潜力。它能提高医生诊断的准确性,帮助优先处理有关键发现的检查,缓解放射科医生短缺的问题,还能降低辐射剂量、改善图像质量。然而,医学影像 ML 模型的训练却面临着一个棘手的难题 —— 大量精心整理的数据集标注工作。这不仅耗时费力,需要专业的放射科专家花费大量时间和精力,而且成本高昂。例如,对大量图像进行细致的分割或边界框标注,是一项单调且耗费时间的任务。同时,标注的准确性也存在问题,即使采用多个独立标注,标注者之间的可靠性差异仍然难以消除。
在这样的背景下,肺栓塞(PE)的检测成为了一个备受关注的研究方向。PE 是指血液在肺动脉循环中形成血栓,这是一种可能危及生命的疾病。其在 CT 肺动脉造影(CTPA)图像上的表现差异很大,从占据中央肺动脉的大栓子,到肺外周小的亚段栓子都有。大的 PE 可能跨越数十张图像,而小的 PE 可能仅在几张图像中占据少量像素。这使得检测小的 PE 极具挑战性,仅依靠检查级标签可能并不足以准确诊断,通常需要更细致的标注。准确及时地诊断 PE 对改善患者预后至关重要,因为诊断和干预的延迟会显著增加死亡率。未经治疗的 PE 死亡率可高达 30%,而经过适当治疗,死亡率能降至 8%。此外,PE 并发症还会导致住院时间延长和医疗系统成本增加。

为了探索如何在保证诊断准确性的同时,减少标注工作量,来自多伦多大学等机构的研究人员开展了相关研究。他们提出了一种半弱监督学习方法,用于在 CTPA 图像上检测 PE。研究成果发表在《npj Digital Medicine》上。

研究人员在研究过程中运用了多种关键技术方法。首先,他们使用了公开可用的 RSPECT 数据集,该数据集来源于 Kaggle 肺栓塞检测竞赛,同时还采用了 Aida 和 FUMPE 这两个公开数据集进行外部验证。在数据处理阶段,利用 dicom2nifti Python 库将 DICOM 文件转换为 NIfTI 格式,通过 TotalSegmentator 对肺部进行分割,确定感兴趣的三维体积(VOI),并进行数据清洗和标准化处理。在模型构建方面,采用基于 CoAtNet - 0 的端到端训练管道,结合注意力层和双向 LSTM 层,利用迁移学习进行模型训练,并使用 Adam 优化器、二元交叉熵损失函数等进行模型的优化和评估。

下面来看具体的研究结果:

  • 整体 PE 检测性能:研究发现,仅使用 2.5% 的切片级标签时,模型在 RSPECT 私人测试集上的受试者工作特征曲线下面积(AUC)就从 0.682(0.652, 0.711)显著提高到 0.858(0.836, 0.881)。随着标签可用性的增加,性能持续提升,但当标签可用性超过 27.5% 时,性能提升变得不那么明显。在外部验证数据集上也得到了类似的结果,仅使用检查级标签的弱监督学习 AUC 较低,为 0.656(0.522, 0.790),而添加 2.5% 的切片级标签后,AUC 提高到 0.980(0.953, 1.000),几乎与全监督模型的 AUC 1.000(1.000, 1.000)相当。
  • 不同 PE 亚型(中央型与外周型)检测性能:对于中央型 PE,初始的弱监督模型(0% 切片级标签)已经有相对较高的 AUC,为 0.817(0.776, 0.858),引入 2.5% 的切片级标签后,AUC 大幅提升至 0.972(0.953, 0.991),接近全监督模型的 0.987(0.974, 1.000)。而外周型 PE 检测的基线 AUC 较低,在弱监督学习下为 0.647(0.614, 0.680),添加 2.5% 的切片级标签后,AUC 提升至 0.829(0.802, 0.856),需要约 27.5% 的切片级标签才能达到接近峰值的性能(AUC 0.912 与全监督模型的 AUC 0.917 相比)。

研究结论和讨论部分表明,该研究挑战了 PE 研究中普遍认为的广泛细粒度标注对高性能至关重要的假设。实验证明,弱监督学习仅使用检查级标签在 PE 检测中存在局限性,但通过纳入少量(约 2.5%)的切片级标签,模型性能能显著提升。并且,使用约四分之一的切片级标签的半弱监督模型,其性能与全监督模型相当。这意味着并非所有成像任务都需要详尽的注释,合理分配有限比例的切片级标签,也能使模型获得强大的诊断性能。同时,研究还发现中央型和外周型 PE 对细粒度标注的需求存在差异,对于较 “简单” 的任务,最小限度的细粒度标注可能就足够了,而对于更具挑战性的小或亚段 PE 病例,则从额外的细粒度标注中获益更多。因此,可以采用分层或自适应标注策略,仅对复杂病例分配更详细的标签,以优化标注效率和模型性能。

然而,该研究也存在一定的局限性。基于 Youden's J 指数的阈值调整方法未考虑假阴性和假阳性预测的临床后果,以及假阴性病例的血栓负荷。外部验证数据集的规模相对较小,可能会影响研究结果的普遍性。此外,CT 研究基于平均肺大小将图像标准化为 184 层,这种统一的方法可能会因下采样或过采样影响模型学习。尽管存在这些不足,该研究仍然为将 AI 集成到临床影像工作流程提供了一种资源高效、可扩展的途径,有望促进更具成本效益和临床影响力的 AI 在医学影像中的应用,对未来的医学研究和临床实践具有重要的指导意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号