在利用正电子发射断层扫描(PET)图像进行的强制选择性病变检测任务中,医学专家和非医学专业读者的表现保持一致
《MEDICAL PHYSICS》:Consistent performance between medical experts and non-expert readers in forced-choice lesion-detection tasks with PET images
【字体:
大
中
小
】
时间:2025年10月24日
来源:MEDICAL PHYSICS 3.2
编辑推荐:
PET成像中专家与非专家读者在简单检测任务中的性能比较,使用CNN和CNN-SwinT模型以及CHO模型,结果显示两者在性能上无显著差异(p>0.07),支持非专家替代专家进行模型训练。
在医学影像学领域,图像质量评估是至关重要的环节,尤其在PET(正电子发射断层扫描)等复杂成像技术中,其准确性直接影响到诊断的可靠性。传统的图像质量评估方法通常依赖于临床医生的主观判断,但这一过程往往受到多种因素的影响,如医生的经验、主观偏好、视觉感知能力以及影像本身的复杂性。为了提高评估的客观性和可重复性,研究者们开发了多种模型观察者(model observers),包括线性模型观察者和基于深度学习的模型观察者。这些模型可以模拟人类观察者的决策过程,并用于预测和评估图像质量。
然而,模型观察者的训练通常需要大量的标注数据,而这些数据往往来自于临床专家,如放射科医生或核医学专家。由于临床专家的获取成本较高,且其经验可能在某些任务中并非关键因素,因此研究者开始探索是否可以使用非医疗背景的观察者来替代临床专家进行模型训练。本研究正是基于这一假设,探讨在简单的检测任务中,非专家观察者是否能够提供与专家观察者相当的性能数据,从而减少对临床专家的依赖。
研究采用了两种类型的观察者模型:线性模型观察者(如通道化Hotelling观察者,CHO)和深度学习模型观察者(DLMO)。实验中使用了两种不同的图像重建算法——有序子集期望最大化(OSEM)和带惩罚的似然算法(BSREM),并针对不同的图像背景(肝脏和肺部)以及不同的病灶对比度(1.5、1.75、2.0)进行了评估。此外,还使用了两种不同类型的图像数据:来自患者的真实背景数据和通过模拟生成的病灶图像。观察者被要求在两个替代选项中选择包含病灶的图像,这是一种常见的“两两选择”(two-alternative forced choice, 2AFC)任务,用于衡量观察者的检测能力。
在实验设计方面,共有8名观察者参与,其中4名是核医学领域的专家,另外4名则是非医学背景的观察者,主要来自医学影像相关的研究机构。实验过程中,观察者被要求在不同的图像条件下进行检测任务,并且通过多次训练和测试,确保其对任务的理解和执行能力。所有观察者在开始实验前都接受了5组随机选择的图像对进行训练,以熟悉任务要求。在每组实验中,观察者需要从两个图像中选择包含病灶的那一个,其判断结果将被用于训练和评估模型观察者。
研究结果显示,专家观察者与非专家观察者之间的相似性在多个指标上均未表现出显著差异。无论是通过一致性指标(concordance metric)还是Cohen's kappa系数来衡量,两者之间的相似性均未达到统计学上的显著水平(p > 0.11)。这一发现表明,在简单的检测任务中,临床经验可能并不是决定观察者性能的关键因素。此外,对专家与非专家观察者之间交互作用的分析也显示,所有涉及经验的交互项均不显著(p > 0.2),进一步支持了这一结论。
在模型观察者的性能比较方面,无论是基于CNN的深度学习模型观察者,还是结合CNN与Transformer(SwinT)编码器的混合模型,其在预测专家观察者性能时均表现出相似的准确性。对于CNN模型,训练在专家数据上的模型与训练在非专家数据上的模型之间的预测准确率差异不显著(p > 0.26);而对于CNN-SwinT混合模型,差异同样不显著(p > 0.31)。这一结果表明,即使在没有专家标注的情况下,非专家观察者的数据仍然可以用于训练高质量的模型观察者,并且这些模型能够有效地预测专家观察者的判断结果。
在模型选择方面,研究采用了一种混合效应模型(generalized linear mixed models, GLMM)来评估不同模型的性能。通过比较不同模型的Akaike信息准则(AIC)和贝叶斯信息准则(BIC),研究发现AIC倾向于选择包含所有固定效应和随机效应的完整模型(M8),而BIC则更倾向于选择排除经验效应的模型(M3)。这种差异可能反映了数据的异质性(data heterogeneity)特征。在数据异质性较低的情况下,AIC能够更好地捕捉模型的预测能力,而在数据异质性较高的情况下,BIC更倾向于选择更简洁的模型。由于人类观察者在实验中可能受到多种因素的影响,如动机、感知能力和认知偏差,这些因素难以被完全建模,因此研究者认为,数据异质性较高,BIC更适合作为模型选择的标准。
尽管如此,研究中提到的模型选择结果并不影响模型观察者在预测专家观察者性能时的有效性。无论使用哪种模型,其在不同实验条件下均表现出相似的预测能力。这一发现对于模型观察者在医学影像领域的应用具有重要意义,因为它表明,即使在没有专家参与的情况下,也可以通过非专家观察者的数据训练出性能良好的模型观察者。
研究还探讨了模型观察者在不同实验条件下的泛化能力。在训练模型时,使用了不同的数据划分策略,包括将81名患者的图像数据分为9个子集,其中7个用于训练,1个用于选择最佳训练轮次,1个用于测试。通过9折交叉验证(9-fold cross-validation),研究者能够评估模型在不同数据集上的表现,并确保其泛化能力。结果显示,模型在不同实验条件下均表现出较高的稳定性,表明其不仅在训练数据上表现良好,而且在测试数据上也能保持一致的预测能力。
此外,研究还分析了不同重建算法对观察者性能的影响。结果显示,BSREM算法在大多数情况下表现出优于OSEM算法的性能,这可能与其对图像噪声的控制能力有关。然而,观察者经验对这一差异的影响并不显著,这表明在简单的检测任务中,图像质量的提升主要来自于重建算法本身,而非观察者的临床经验。这一发现对于优化图像重建算法具有重要的指导意义,因为它提示我们可以通过调整算法参数来提高图像质量,而不必依赖于观察者的专业知识。
总体而言,本研究的结论表明,在简单的检测任务中,非专家观察者可以有效地替代临床专家进行模型训练,从而降低对专家资源的依赖。这不仅有助于加快模型开发的进程,还能够提高模型的可访问性和可重复性。然而,研究也指出,这一结论仅适用于特定类型的检测任务,即那些不需要复杂临床推理的简单任务。在更复杂的任务中,临床经验可能仍然发挥重要作用。
研究的局限性在于,它仅限于特定的图像背景和病灶类型,因此其结果可能无法直接推广到其他类型的影像数据或检测任务。此外,非专家观察者可能在某些特定的图像背景下表现更优,而在其他情况下可能不如专家观察者。因此,未来的研究可以进一步探索不同类型的观察者在不同任务中的表现差异,并评估模型观察者在更复杂任务中的适用性。
总的来说,这项研究为医学影像领域的模型观察者开发提供了一个新的视角,即非专家观察者的数据可以用于训练高质量的模型观察者。这不仅有助于解决专家资源不足的问题,还为未来的影像质量评估方法提供了理论依据和技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号