综述:人工智能在CT扫描范围勾画中的应用:一项系统评价和荟萃分析

《European Journal of Radiology Artificial Intelligence》:Artificial intelligence in CT scan range delineation: A systematic review and meta-analysis

【字体: 时间:2025年11月08日 来源:European Journal of Radiology Artificial Intelligence

编辑推荐:

  人工智能辅助CT扫描范围确定可显著缩短扫描长度(平均减少27.5mm)并降低辐射剂量(平均减少13.5%),尤其在胸腹部影像中效果显著,但下边界精度仍需优化。

  在现代医学中,计算机断层扫描(Computed Tomography, CT)已经成为一种不可或缺的诊断工具。然而,随着CT检查的广泛应用,患者接受的辐射剂量(Radiation Dose, RD)问题也日益受到关注。根据2023年的风险模型数据,预计在美国,CT影像可能在未来导致约103,000例癌症病例,其中腹部和胸部扫描所占比例最大,这些扫描与辐射诱发的恶性肿瘤密切相关。如果目前的影像实践持续不变,CT相关的癌症病例最终可能占所有新诊断癌症的5%。一项涉及250万患者的多中心研究显示,在1至5年的观察期内,约有33,000人(1.33%)接受了累计有效剂量达到或超过100 mSv的CT检查,这种剂量水平被认为与癌症风险相关。另一项针对35个OECD国家的分析表明,约有250万患者在五年内达到了这一剂量阈值,突显了该问题的全球性,并强调了跨医疗体系协调剂量管理的重要性。

在临床层面,这些发现表明需要优化剂量管理策略,特别是在扫描范围(Scan Range, SR)的选择方面,因为SR的变异性与不准确性可能导致不必要的辐射暴露。通常情况下,扫描范围是由放射科技师手动定义的,基于在正位、侧位或两者投影中获取的 scout 图像上识别出的解剖标志。然而,操作者之间的差异以及操作者自身经验与工作负荷的不同,可能导致SR定义的不一致。这种不一致性可能会导致过扫描(overscanning),从而增加辐射剂量,或欠扫描(underscanning),这可能遗漏相关解剖结构,需要重复检查。为了防止遗漏重要解剖区域,放射科技师通常会将SR延伸到目标区域之外,这虽然有助于确保影像覆盖完整,但可能会无意中使患者暴露于额外的、不必要的辐射剂量。

为了减少不必要的辐射暴露,人工智能(Artificial Intelligence, AI)技术在CT扫描中的应用日益受到重视。AI,包括机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)算法,已经在CT成像中展现出巨大的潜力,特别是在减少辐射剂量方面。例如,AI已被用于图像重建、图像降噪、患者定位以及最近的扫描范围确定等应用。许多研究已经探讨了使用AI自动选择SR的可行性,旨在减少操作者之间的差异,最小化手动错误,提高扫描计划的一致性,从而实现剂量优化。

这项系统综述和荟萃分析旨在评估AI辅助扫描范围确定在CT影像中的效果。具体来说,研究将探讨AI对扫描长度、解剖覆盖准确性和辐射剂量的影响,与手动方法进行比较。综述将整合使用各种AI技术的不同解剖区域的研究证据,提供对AI在改进扫描计划准确性和增强患者辐射保护潜力的全面评估。

在方法上,这项系统综述遵循了首选报告项目(Preferred Reporting Items for Systematic Review and Meta-Analysis Protocols, PRISMA)指南,并在国际前瞻性系统综述注册数据库(CRD42024570335)中注册了综述协议。文献搜索通过EBSCOhost、IEEE Xplore、Ovid MEDLINE?、Scopus和PubMed等五个数据库进行,时间范围为2018年1月至2025年5月。搜索策略基于PICO框架,并包含了术语的同义词、缩写和变体,以确保全面覆盖相关研究。所有纳入研究均为英文的原始研究,包括前瞻性、回顾性和随机试验,而排除了先前综述、荟萃分析、会议摘要、社论、信件以及使用非CT成像技术或非AI方法确定SR的研究。在初始搜索中没有语言限制,但在最终分析中仅包含英文文章,因为缺乏相关的非英文研究。

研究选择过程通过Covidence平台进行,采用RIS文本格式导入所有识别出的研究,并去除重复的研究。随后,两名评审员(Mo’men Bani-Ahmad和Yasser H. Hadi)独立且盲法地筛选标题和摘要,排除不相关的研究。接下来,上传全文进行进一步筛选,记录排除原因。对于存在分歧或不确定性的研究,两名评审员与第三位评审员(Andrew England)讨论以达成共识,确定最终纳入的研究。

数据提取和质量评估由两名评审员(Mo’men Bani-Ahmad和Yasser H. Hadi)独立进行,并通过结构化表格提取关键信息,包括研究的人口学特征、CT采集方法、 scout 图像类型、网络模型、训练和验证细节、平均扫描长度(mm)、平均绝对误差(mm)、准确性、辐射剂量(mSv)以及报告结果。研究的质量评估使用CLAIM清单,这是一种专门用于评估医学影像中AI研究方法学质量的工具。两名评审员独立评估了44个个体标准,分为四个领域,并由第三位评审员(Andrew England)解决任何分歧。CLAIM用于评估AI研究的完整性和方法学质量,而GRADE框架则用于评估临床相关结果的证据确定性和强度,如扫描长度和辐射剂量的减少。尽管GRADE通常用于干预性研究,但其领域——偏倚风险、不一致性、间接性、不精确性和发表偏倚——可以适当调整以适用于诊断准确性和回顾性观察研究。

数据综合和统计分析使用Jamovi 2.4.13软件进行,采用随机效应模型比较自动与手动SR的准确性、扫描长度和辐射剂量。统计异质性通过标准化均值差异(Standardised Mean Differences, SMDs)、Q检验、tau2和I2统计量进行评估。使用观察结果的标准误差作为预测因子,通过排名相关性和回归测试检查了漏斗图的不对称性。为了分析AI在确定CT SR时对较低辐射剂量的影响,预测区间、学生化残差和Cook距离被用来识别异常值和具有影响力的研究所确保模型的稳健性和可靠性。此外,还进行了子组荟萃分析,以评估在胸部CT研究中AI的表现一致性,使用与主分析相同的随机效应模型和荟萃分析方法。

在研究选择和特征部分,初始搜索共识别出1,216篇文章。在去除重复研究后,剩余755篇文章。其中740篇因不符合研究问题的原始研究文章而被排除。剩下的15篇文章被考虑为潜在符合条件,并进行全文筛选。在全文筛选过程中,又排除了9篇文章,原因是研究与问题无关(n=5)或未使用AI方法自动化SR(n=4)。最终纳入6项研究,这些研究覆盖了不同的CT协议和解剖区域,包括胸部、腹部、胸部/腹部/骨盆、冠状动脉CT血管造影(Coronary CT Angiography, CCTA)和多期肝脏/腹部扫描。样本量从61到12,146名患者不等,总计19,795名患者。平均年龄范围从50到70岁,女性比例从40%到84%不等。主要的AI方法包括机器学习(ML)和深度学习(DL),其中两项研究使用了ML,四项研究使用了DL。

在质量评估和偏倚风险部分,CLAIM评估显示纳入的六项研究平均CLAIM评分为29.17或约66.29%(标准差为2.64),范围从26到34分(满分44分)。CLAIM子部分的平均评分进一步揭示了这些研究的质量。标题/摘要部分得分为2.00/2(100%);引言部分得分为2.00/2(100%);方法部分得分为19/30(63.33%);结果部分得分为3.00/5(60.0%);讨论部分得分为1.67/2(83.5%);其他信息部分得分为1.50/3(50.0%)。这些发现突显了这些研究的优势,并指出了在应用AI方法时可以进一步改进SR的领域。

GRADE评估表明,这些研究的证据总体上是稳健的,显示出强的方法学质量和对临床问题的直接相关性。所有六项研究都明确报告了盲法、序列生成和分配隐藏,因此被判断为偏倚风险较低。尽管存在显著的异质性(I2 > 98%),但由于大样本量和低发表偏倚风险,研究结果的可靠性得到了增强。由于宽泛的置信区间,不精确性被判断为边界。这些发现支持了AI方法在减少辐射剂量方面的有效性。表7展示了AI方法通过优化扫描长度所实现的辐射剂量减少情况。AI驱动的SR减少了胸部CT的扫描长度13-31毫米,CCTA减少了15-20毫米,多期肝脏CT减少了71毫米,腹部CT减少了14.5毫米,胸部/腹部/骨盆CT减少了25毫米。这与胸部CT的4-17.4%、CCTA的11.5%、多期肝脏CT的14.0%、腹部CT的47.3%和胸部/腹部/骨盆CT的28.6%的辐射剂量减少相关。

在子组荟萃分析中,对四项胸部CT研究的分析表明,基于AI的SR确定与扫描长度和辐射剂量的减少相关。扫描长度的SMD为?0.63(95% CI: ?0.76至?0.51,p < 0.001),而辐射剂量的SMD为?0.20(95% CI: ?0.35至?0.05,p = 0.009)。这些发现与总体的荟萃估计一致,表明在胸部影像中观察到的效果可能相对稳定。尽管存在高异质性(I2 > 90%),但各研究中效果的方向保持一致。

在讨论部分,系统综述综合了当前关于AI辅助SR确定在CT影像中准确性和有效性的证据。分析显示,AI算法在多个解剖区域(包括胸部、腹部、骨盆和心脏扫描)中提高了SR的准确性,无论是在上边界(95% CI: –4.94至–0.91,p = 0.004)还是下边界(95% CI: –3.36至–0.10,p = 0.037)。AI方法还与辐射剂量(95% CI: –0.37至–0.13,p < 0.001)和扫描长度(95% CI: –1.05至–0.52,z = –5.75,p < 0.001)的减少相关。这些发现的统计显著性突显了其可靠性,并强调了将AI整合到CT SR确定中的潜在好处。这些结果与之前强调准确SR选择在减少辐射剂量方面的研究一致。

在纳入的研究中,手动过扫描(overscanning)频繁发生,平均过扫描长度从23%到57%不等。相应的过量辐射剂量(RD)从5%到48%不等。值得注意的是,下边界过扫描占总过扫描的约三分之二,对整体RD贡献显著。这些发现与之前使用AI工具评估SR长度的研究一致,这些研究指出下边界过扫描比上边界更为严重。AI方法展示了减少过扫描和解剖结构高估的潜力,通过提高SR界定的准确性,同时减少扫描长度和辐射剂量。AI辅助方法与扫描长度减少15至71毫米和辐射剂量减少5%至47%相关。此外,报告的SR确定平均误差在AI方法中为4.58毫米,而手动方法中为23.03毫米。具体而言,AI在上边界减少了17.27毫米的平均误差,在下边界减少了19.63毫米的平均误差,导致与手动方法相比整体减少了18.45毫米的误差。

然而,AI和手动方法在下边界均表现出较低的准确性,这表现在较高的平均误差上。对于AI方法,下边界的平均误差为6.87毫米,而上边界的平均误差为2.3毫米。同样,手动方法在下边界的平均误差为26.5毫米,而上边界的平均误差为19.57毫米。因此,下边界过扫描更为普遍,尽管AI方法显著减轻了这一问题。观察到的AI网络在下边界表现不佳可能由多种因素引起,包括分割错误、ALD在结构复杂或不清晰区域的潜在误识别、训练数据集的多样性不足、 scout 图像与螺旋CT图像之间呼吸相位的差异,以及依赖单一 scout 图像。

在临床可接受性方面,纳入的研究中大多数报告了AI方法的高准确性,即使在存在病理异常、患者对齐问题或增加的体态情况下也是如此。Demircio?lu等人在没有病理情况的患者中报告了100%的准确性(49/49例),而在存在肺不张(atelectasis)和胸腔积液(pleural effusions)的病例中,准确性略有下降,分别为96%(48/50)和96%(49/51)。在相关研究中,Demircio?lu等人发现,心脏影像的不完整在298例中发生率低于4%,且大多数偏差被描述为轻微,不影响临床解释。Ruan等人报告了在240例中的总体准确性为97%,并观察到过扫描的减少。Golbus等人指出,尽管一些扫描超出了解剖边界,但与手动规划相比,过扫描有所减少。Salimi等人表示,AI确定的SR的误差(“过短”)少于2毫米,不会影响诊断价值。这些发现表明,AI在提高CT扫描计划的精度和效率方面具有潜力,通过减少过扫描并确保充分的解剖覆盖。

AI在SR优化中的潜在作用不仅限于提高SR的准确性。AI系统还提供了实时决策支持和回顾性质量保证的功能。当应用于 scout 图像时,AI可以协助放射科技师在扫描计划过程中自动提醒他们可能出现的过扫描或偏离标准扫描边界的状况。相反,基于轴向CT数据的模型可以回顾性地评估扫描覆盖范围,并量化过量的辐射暴露,支持审计过程和协议优化。这些AI驱动的扫描范围优化方法在即时和长期的临床环境中提高了影像的一致性和患者的安全性。尽管这些研究未直接评估AI的具体功能,但它们代表了该领域新兴研究中支持的有希望的方向。

尽管AI在提高SR一致性和准确性方面具有潜力,但其成功实施仍然依赖于专家的人工监督。放射科技师在保持AI系统有效性中的作用不可忽视,特别是在涉及障碍(如附加设备)或图像伪影(如金属或运动伪影)的复杂情况下,这些因素可能会误导AI网络对解剖标志的解释和分割。从临床实践的角度来看,AI应被视为增强放射科技师专业知识的辅助工具,而不是替代。过度依赖AI而没有放射科技师的批判性评估可能导致意外的错误,尤其是在不典型或高风险病例中。因此,放射科技师必须积极参与AI生成的扫描计划的审查和验证。他们的临床判断对于确保AI输出符合上下文要求和患者特定需求至关重要。同时,通过标准化SR选择,减少操作者之间的差异和过扫描,AI可以支持更一致的影像协议,并增强辐射防护。这些好处在高需求的临床环境或协助经验较少的员工时尤为重要。为了充分实现这些优势,放射科技师必须清楚了解AI的能力和局限性。这种知识使他们能够批判性地评估AI输出,必要时进行干预,并确保患者护理始终处于影像实践的中心,同时适应不断变化的工作流程。

综述中的发现受到纳入研究方法学异质性的影响。研究在解剖目标(如胸部、腹部、心脏)、CT协议(低剂量与标准剂量)、 scout 成像技术(前后位、侧位或三维)以及AI模型架构(如U-Net、YOLOv4、VFNet、ResNet)方面存在差异。研究还存在AI模型验证阶段的差异,一些研究仅报告内部验证,而另一些研究则使用独立的临床数据集进行外部验证。这些差异也反映了在定义SR边界时使用的解剖标志的不同。例如,心脏CT依赖于独特的解剖标志和扫描范围,与胸部或腹部影像不同,这可能影响AI在不同区域的表现可比性。此外,SR的地面真值由不同的专业人士(如放射科医生、放射科技师或解剖学家)标注,这可能引入参考标准的潜在不一致性。虽然这种多样性反映了现实的临床实践并增强了外部效度,但也给研究结果的综合带来了挑战。为部分解决这一问题,对胸部CT研究进行了子组荟萃分析,显示出AI在减少扫描长度和辐射剂量方面的持续好处。然而,由于合格研究数量有限,无法对其他解剖区域(如腹部或冠状动脉CT血管造影)进行类似的分析。CT采集协议的差异,如肺癌低剂量筛查与标准剂量诊断成像,可能进一步导致报告的辐射剂量减少的差异。这些协议特定的差异影响了基线剂量水平,因此在解释汇总的辐射剂量结果时需要谨慎考虑。

除了方法学异质性外,SR准确性的测量、扫描长度和辐射剂量的不确定性也需要被承认。这些指标受到观察者间差异、解剖标志定义的差异、扫描仪校准、剂量指标和患者特定因素(如体态)的影响。AI模型的预测结果会因训练数据的多样性及地面真值标注的质量而有所不同。在解释汇总估计和评估基于AI的SR优化的临床适用性时,这些不确定性必须被考虑。

所有纳入的研究均为回顾性研究,这可能引入偏倚并限制结果的普遍性。尽管这些研究为AI驱动的SR确定提供了有价值的见解,但它们可能无法反映在实际临床实践中的表现。前瞻性验证对于评估AI在不同患者群体、扫描仪技术和临床工作流程中的实际应用至关重要。此外,缺乏直接的辐射剂量测量和影像质量评估可能影响报告结果的可靠性。纳入研究的数量有限也可能降低荟萃分析的统计效力,并增加汇总估计的不确定性。儿科影像研究明显缺失,应成为未来研究的重点。此外,未来的研究应探索较少研究的解剖区域,如头颈部位,其中SR的变异性可能同样影响辐射暴露。还应注重更同质的数据集和稳健的子组分析,以增强结果的普遍性。与临床专家和放射科技师合作进行模型开发和验证,可以进一步提高AI在实际应用中的适用性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号