基于人工智能的前列腺MRI自动轮廓分割在放疗中的领域偏移来源及泛化能力评估
《Physica Medica》:Evaluation of domain shift sources and generalisability in AI-based prostate MRI autocontouring for radiotherapy
【字体:
大
中
小
】
时间:2025年11月16日
来源:Physica Medica 3.2
编辑推荐:
MRI自动轮廓化中多源领域偏移的影响及缓解策略研究。通过nnU-Net框架分析不同数据集、扫描设备、成像协议对模型性能的影响,发现扫描设备和成像协议差异导致的领域偏移效应更显著(ΔDSC=0.33,Δ95%HD=246.86mm),而数据集差异影响较小(ΔDSC=0.06)。外部验证显示混合数据训练模型(DSC=0.87,95%HD=3.75mm)性能优于单一数据集模型,但不及机构内训模型(DSC=0.90,95%HD=1.03mm)。研究首次揭示成像协议差异即使使用相同扫描设备也会产生显著偏移。
在现代医学影像技术的发展中,磁共振成像(MRI)正逐渐成为前列腺癌放疗计划中的重要工具。相较于传统的计算机断层扫描(CT),MRI能够提供更优质的软组织对比度,使临床医生在勾画病灶区域时更加精准。然而,尽管MRI技术在放疗领域展现出巨大的潜力,其应用仍面临一些挑战,尤其是在深度学习(Deep Learning, DL)模型的部署方面。深度学习模型虽然在自动勾画前列腺方面表现出色,但在实际临床应用中仍受到“领域迁移”(domain shift)问题的限制。领域迁移指的是在训练模型时所使用的数据集与实际应用或评估时的数据集之间存在差异,这种差异可能导致模型性能的下降。
本文旨在系统分析不同来源的领域迁移对深度学习模型性能的影响,并通过外部评估的方式,比较由异构公共数据集训练的模型与医院内部数据集训练的模型之间的表现。研究中采用了一种先进的深度学习框架——nnU-Net,该框架在医学影像分割任务中已被证明具有良好的效果。通过控制训练集的大小,研究人员评估了三种可能的领域迁移来源:数据集差异、扫描仪厂商/磁场强度差异,以及图像采集与标注协议差异。研究结果表明,这些领域迁移因素对模型性能产生了显著影响,其中扫描仪厂商和磁场强度的差异对模型表现的影响最大,其次是图像采集与标注协议的差异,而数据集差异的影响相对较小。
为了确保实验的严谨性,研究人员对训练数据进行了详细的处理和准备。首先,他们使用了五个公开的前列腺MRI数据集,包括PROMISE12、I2CVB、Decathlon、ProstateX和NCI-ISBI2013。这些数据集涵盖了不同扫描仪厂商、不同磁场强度以及不同的采集与标注协议,从而为领域迁移分析提供了丰富的背景。此外,研究团队还使用了来自伦敦Guy’s医院的66例临床MRI扫描数据,这些数据来源于医院内部的诊断盆腔MRI,涵盖了低风险和中等风险的前列腺癌患者,并采用低剂量率近距离放疗进行治疗。所有数据在分析前均经过伪匿名化处理,以确保患者隐私。
在数据准备过程中,研究团队特别关注了前列腺区域的标注问题。由于放疗计划通常需要对整个前列腺进行勾画,因此在某些公开数据集中,研究者将外围区(peripheral zone, PZ)和过渡区(transition zone, TZ)的标注合并,以生成完整的前列腺结构。对于医院内部的数据集,所有前列腺轮廓均由资深临床研究员绘制,并由临床肿瘤科医生进行审核。这些标注数据被转换为二进制掩膜,以便于后续的深度学习模型训练和评估。所有的图像和掩膜数据均被转换为NIFTI格式,以确保数据格式的一致性。
在模型训练和评估方面,研究团队采用了nnU-Net框架,并选择了3D Full-Resolution U-Net(Fullres)配置。这种配置能够自动对图像体素进行重采样,以适应目标空间分辨率。对于各数据集,根据其是否为各向同性(isotropic)或各向异性(anisotropic),模型分别采用不同的重采样策略。实验过程中,研究团队还对训练数据进行了预处理,包括非零区域裁剪和强度归一化,以减少数据噪声并提高模型的泛化能力。此外,为了增强模型的鲁棒性,研究人员在训练过程中引入了数据增强技术,如旋转、缩放和弹性变形等。
实验设计分为四个部分,分别对应不同的领域迁移来源。第一部分实验评估了数据集差异对模型性能的影响,第二部分评估了扫描仪厂商和磁场强度差异的影响,第三部分则关注了图像采集与标注协议的差异,即使在同一扫描仪和磁场强度下,不同采集和标注方式也可能导致模型性能下降。第四部分则是对模型在外部临床数据集上的表现进行评估,并将其与医院内部模型进行比较。通过这种方式,研究团队能够更全面地了解领域迁移问题对深度学习模型的影响,并探索如何通过数据多样性来提高模型的泛化能力。
在实验结果方面,研究团队发现,当模型在同源数据集(intra-domain)上进行评估时,其性能通常优于跨源数据集(inter-domain)评估。此外,混合域训练的模型(mixed-domain)在性能上也表现良好,甚至在某些情况下接近同源数据集的表现。然而,与医院内部模型相比,混合域训练的模型在外部评估中表现稍逊。这表明,虽然使用异构数据可以提高模型的泛化能力,但医院内部数据的特定性可能使得模型在临床环境中更加稳健。研究团队进一步分析了不同来源的领域迁移对模型性能的具体影响,并通过统计分析方法验证了这些差异的显著性。
值得注意的是,实验结果还揭示了图像采集与标注协议差异对模型性能的影响。尽管这些数据集均来自同一扫描仪和磁场强度,但由于采集和标注过程中的参数设置不同,模型在跨协议评估时的表现仍然存在较大差异。这一发现对于未来的模型训练和部署具有重要意义,因为这意味着在实际临床应用中,仅仅依靠同一设备采集的数据可能不足以保证模型的稳定性和准确性。因此,研究团队建议在模型训练过程中,应尽量涵盖多种采集和标注协议,以增强模型对不同临床环境的适应能力。
此外,研究团队还探讨了模型在外部临床数据集上的表现。通过比较由异构公共数据集训练的模型(Model 16)与医院内部数据集训练的模型(Model 15),他们发现,尽管Model 16在训练数据量上远大于Model 15,但Model 15在外部评估中表现更优。这一结果表明,使用医院内部数据进行训练可以显著提高模型在临床环境中的鲁棒性。然而,由于某些医院可能无法获取足够的内部数据,因此混合域训练的模型仍然具有一定的实用价值。通过结合多种数据源,这些模型可以在一定程度上缓解领域迁移问题,从而提高其在实际应用中的准确性。
从实验结果来看,领域迁移对模型性能的影响程度因来源不同而有所差异。扫描仪厂商和磁场强度的差异对模型性能的影响最为显著,而数据集差异的影响相对较小。这说明在实际应用中,如果模型训练数据与评估数据之间的扫描仪厂商或磁场强度存在较大差异,可能会导致模型性能的明显下降。相比之下,即使在相同扫描仪和磁场强度下,由于采集和标注协议的不同,模型性能也可能受到影响。因此,研究团队认为,在模型训练过程中,应充分考虑这些因素,并尽可能地使用多样化数据来提高模型的泛化能力。
为了进一步验证这些发现,研究团队还对不同实验的性能差异进行了统计分析。通过曼-惠特尼U检验(Mann-Whitney U test),他们确认了同源与跨源评估之间的性能差异具有统计学意义(p < 0.05)。这些统计结果为后续的模型优化和部署提供了重要的依据。此外,研究团队还指出,尽管使用了多种量化指标(如Dice相似性系数、95% Hausdorff距离等)来评估模型性能,但在临床部署前,还需要结合定性指标进行更全面的分析。这是因为,某些定量指标可能无法准确反映模型在实际应用中的表现,尤其是在需要精确边界定义的临床任务中。
综上所述,本文通过系统的实验设计和详尽的分析,揭示了领域迁移对深度学习模型在前列腺MRI自动勾画任务中的重要影响。研究结果表明,不同来源的领域迁移(如数据集、扫描仪厂商/磁场强度、图像采集与标注协议)均会对模型性能产生显著影响,其中扫描仪厂商和磁场强度的影响最大。为了提高模型的临床适用性,研究团队建议在训练过程中引入更多样化的数据,并通过外部评估验证模型的泛化能力。同时,他们还指出,尽管混合域训练的模型在某些情况下表现良好,但医院内部数据的使用仍然是提升模型鲁棒性的关键因素。未来的研究应进一步探索如何在有限的内部数据条件下,通过混合域训练和模型微调来提高自动勾画工具的临床实用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号