在TROG 18.01 NINJA试验中实施自动化轮廓质量保证工具

《Radiotherapy and Oncology》:Implementation of an automated contour quality assurance tool within the TROG 18.01 NINJA trial

【字体: 时间:2025年11月09日 来源:Radiotherapy and Oncology 5.3

编辑推荐:

  本研究在TROG 18.01 NINJA前列腺癌临床试验中部署了基于深度学习的自动轮廓质量保证(QA)工具,发现模型在真实场景中存在较高的假阳性率(准确性0.46,特异性0.41)。通过引入数据分布偏移检测(基于直方图相关性和模型不确定性),可将准确性提升至0.69。虽然未发现假阴性案例,但需优化MRI采集标准与数据预处理流程。该实践验证了自动化QA在多中心临床试验中的可行性,并为未来大规模应用提供了改进方向。

  在现代医学研究领域,尤其是放射治疗临床试验中,质量保证(QA)扮演着至关重要的角色。这类试验通常需要对患者的治疗计划进行严格审查,以确保其符合既定的治疗标准和安全要求。然而,随着试验规模的扩大以及多中心协作的增加,传统的手动QA流程变得愈发繁重,不仅耗费大量时间和人力资源,还可能因时间紧迫或跨时区协作等问题影响整体效率。因此,探索自动化QA工具的应用成为提升临床试验质量与效率的重要方向。本研究旨在评估一种自动化轮廓QA工具在实际临床试验中的表现,并探讨其在多中心试验中的可行性。

本研究基于一个已开发的前列腺临床目标体积(CTV)QA模型,将其集成到TROG 18.01 NINJA前列腺癌试验的QA流程中。NINJA试验是一项针对前列腺癌患者的III期临床试验,比较了五次分割的立体定向体部放疗(SBRT)单药治疗与“虚拟高剂量率补量”(HDRB)非侵入性放疗方式的疗效。试验还评估了仅使用MRI进行计划制定的可能性,这需要通过合成CT(sCT)来实现,从而避免获取额外的CT扫描数据。尽管这一试验框架在理论上具有创新性,但在实际操作中,由于各中心MRI采集标准不一,导致模型的输入数据存在显著差异,进而影响其预测性能。

在开发自动化QA工具的过程中,研究团队首先确定了几个关键需求:工具需要能够对输入的病例进行分类,判断其是否符合QA标准;生成一份便于TROG工作人员和放射肿瘤科医生(RO)查阅的报告;以及与TROG现有的QA软件系统进行无缝集成。为了满足这些需求,研究团队采用了一种基于深度学习的人工智能(AI)方法,利用现有的AtlasNet架构(AN-AG)模型,通过阈值化Dice相似性系数(DSC)来判断自动分割的CTV与手动定义的CTV之间的匹配程度。最终,模型被简化为二分类系统,仅区分“通过”和“违反”两种结果。

在实际部署中,该工具被集成到MIM软件中,作为其一个扩展模块。MIM软件是用于放射治疗计划制定和质量评估的常用平台,而该工具则通过客户端-服务器架构实现,模型在TROG内部网络中的专用服务器上运行。当数据准备完成后,MIM软件作为客户端将数据发送至服务器,服务器处理数据后生成PDF格式的QA报告,并返回给RO进行评估。这一流程极大地简化了数据处理和报告生成的步骤,使得RO能够在不打开额外软件的情况下直接查阅结果。

在试点阶段(2023年3月至2024年9月),共有51例患者治疗计划被TROG抽样进行QA评估。其中,有4例被专家RO判断为CTV轮廓不符合协议要求。所有违反协议的病例均被治疗中心修正并重新提交,最终有56例CTV轮廓被纳入评估。结果显示,模型能够准确识别所有违反协议的病例,灵敏度达到1.0,表明其在识别错误方面表现良好。然而,模型的准确率仅为0.46,特异性为0.41,这意味着其存在较高的误报率。这一问题的根源在于部分病例的MRI数据与模型训练所使用的数据分布不一致,尤其是由于MRI采集协议的不一致,如不同场视野(FOV)的使用,导致模型在处理这些数据时性能下降。

为了解决这一问题,研究团队引入了两种基于分布外检测(OOD detection)的方法:一种是基于直方图相关性的方法,另一种是基于模型不确定性估计的方法。通过这两种方法,研究团队能够识别出那些可能影响模型预测准确性的数据。例如,直方图相关性方法通过比较输入图像的直方图与训练数据的平均直方图之间的相似度,来判断是否属于模型训练时的分布范围。而基于模型不确定性的方法则利用了模型在多个Atlas空间中的预测结果,计算出每个CTV区域的平均不确定性值,从而识别出可能的OOD病例。这两种方法的引入显著提升了模型在分布内数据上的表现,将准确率提高至0.69,而分布外数据的准确率则下降至0.27。

为了进一步验证模型的灵敏度,研究团队还设计了一个次级验证研究,由一名未参与NINJA试验的年轻放射肿瘤科医生对15例病例进行CTV轮廓绘制。这些轮廓预计会因为缺乏对试验协议的理解而产生违反的情况。结果显示,模型对其中14例判断为违反,仅对1例判断为通过。经过专家RO的复核,13例被判定为真实违反,1例为误报(假阳性),灵敏度达到0.93。此外,模型对1例被误判为通过的病例进行了复核,发现其实际上存在违反情况,即为假阴性。这一结果表明,尽管模型在识别违反协议的病例方面表现良好,但在实际部署中仍需进一步验证,以确保其在不同数据分布下的稳定性。

从实际应用的角度来看,该工具为放射肿瘤科医生带来了显著的时间节省。在试点阶段,专家RO在使用PDF报告进行评审时,节省了大约30分钟的时间。而在模型预测为“通过”的情况下,放射肿瘤科医生甚至可以完全跳过评审流程,节省了高达60分钟的时间。然而,对于TROG工作人员而言,数据准备和验证仍然是主要的工作负担,这表明在未来的实施中,需要进一步优化数据处理流程,以实现更高效的QA管理。

研究团队还发现,部分病例提交的CTV轮廓与模型训练时所使用的标准存在差异。例如,一些中心仅提交了包含精囊的CTVp结构,而未按照试验要求提交单独的CTV Prostate结构。这导致模型在处理这些数据时,出现了更高的误报率。因此,为了提高模型的泛化能力,研究团队建议在试验设计阶段明确MRI采集标准和轮廓定义指南,以确保各中心的数据一致性。此外,研究团队还提出,应建立持续的模型性能监控机制,以便在试验过程中及时发现并解决潜在问题。这种机制可以通过主动学习或联邦学习的方式实现,利用试验过程中积累的数据对模型进行定期更新和验证,从而提升其在不同中心间的适用性。

本研究的结果表明,自动化轮廓QA工具在多中心临床试验中具有一定的应用潜力。尽管在实际部署中遇到了一些挑战,如数据分布不一致和较高的误报率,但这些问题通过引入OOD检测机制得到了有效缓解。同时,该工具为放射肿瘤科医生提供了便捷的评审方式,减少了他们的工作负担。然而,对于TROG工作人员而言,数据准备和验证仍然需要大量的时间和精力。因此,未来的研究和实践应更加注重流程自动化,包括数据上传、数据验证和QA工具的自动执行,以进一步降低整体工作量。

此外,本研究还强调了持续验证的重要性。尽管在试点阶段模型表现良好,但随着试验的推进,数据分布可能会发生变化,这可能会影响模型的性能。因此,研究团队建议在试验过程中建立一套完善的反馈机制,使模型能够根据新的数据进行调整和优化。这不仅有助于提升模型的准确性,还能确保其在不同中心和不同患者群体中的适用性。

综上所述,本研究展示了一个自动化轮廓QA工具在实际临床试验中的应用潜力。尽管存在一些挑战,如数据分布不一致和较高的误报率,但通过引入OOD检测机制,这些问题得到了一定程度的缓解。该工具为放射肿瘤科医生提供了高效的工作方式,同时为多中心试验的QA流程带来了新的可能性。然而,要实现更广泛的应用,仍需进一步优化数据处理流程,并加强模型的持续验证和更新。未来的研究应继续探索如何在保证模型性能的同时,减少人为干预,提高整体效率,从而更好地支持临床试验的质量管理。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号