摘要
腰椎间盘突出症(PIVD)是一种致残性下腰痛疾病,准确及时的诊断对有效治疗至关重要。人工智能(AI)和计算机辅助诊断(CAD)技术有望通过提高准确性、效率和客观性革新诊断方式。本系统综述与 Meta 分析旨在全面评估不同 AI 和 CAD 工具在腰椎 PIVD 诊断中的应用价值。2024 年 6-8 月对电子数据库进行系统检索,主要结局为各 AI 和 CAD 系统的诊断准确性,并对纳入研究进行 Meta 分析。共纳入 8 项研究,评估 13 个 CAD 或 AI 系统,其中 3 项纳入 Meta 分析,结果显示腰椎 PIVD 诊断的合并灵敏度为 0.901(95% CI:0.871-0.924),特异度为 0.919(95% CI:0.898-0.936)。结论强力支持 AI/CAD 系统在提高腰椎 PIVD 诊断准确性和效率方面的潜力。Prospero ID:CRD42023444785。
引言
自 20 世纪 50 年代诞生以来,人工智能(AI)迅速发展并渗透到各个领域,近几十年来也彻底改变了医疗保健领域。AI 帮助医疗专业人员实现诊断自动化、更快检测疾病、提供个性化治疗方案、评估结局及助力新药研发。在医疗研究中,AI 因在临床环境中的广泛应用而备受关注。
下腰痛相关的脊柱疾病是医疗保健领域研究最多的课题之一,被称为现代流行病,影响各年龄段人群。椎间盘源性疾病是物理治疗师治疗的脊柱疾病中最常见的类型,涵盖椎间盘的多种病理改变。腰椎间盘突出症(PIVD),又称椎间盘突出,是当代社会常见的肌肉骨骼疾病,常与不良习惯、肥胖、久坐生活方式和社会经济状况相关。诊断通常采用磁共振成像(MRI),偶尔结合计算机断层扫描和 X 线检查,诊断需结合患者临床表现与影像学结果。
尽管 MRI 是诊断 PIVD 的金标准,但常发现无症状者存在椎间盘异常,且 MRI 结果与临床症状未必相关,易导致过度诊断或漏诊,这部分归因于放射科医生解读差异。临床诊断主观性强,依赖治疗师经验,且患者数量多、表现各异增加诊断难度。在印度等发展中国家,MRI 价格高、可及性有限,进一步延误诊疗。因此,探索替代诊断方法至关重要,AI 可协助临床医生做出明确诊断,尤其在复杂病例中。
机器学习、深度学习等 AI 子领域的发展推动了相关研究,计算机视觉能从影像学数据提取信息辅助脊柱疾病诊断,计算机辅助诊断(CAD)系统可检测人眼易忽略的细微异常,提高诊断准确性和一致性,助力治疗规划和结局预测,降低诊断变异性,提升评估客观性和患者护理质量。本系统综述旨在呈现和讨论 AI 在 PIVD 诊断中的开发与应用研究。
研究问题
基于 AI 和计算机辅助诊断的方法用于诊断腰椎 PIVD 时,是否与诊断准确性的提高相关?
材料与方法
方案与注册
本系统综述前瞻性注册于 PROSPERO(ID:CRD42023444785),遵循诊断试验准确性研究的系统评价与 Meta 分析首选报告项目(PRISMA-DTA)指南。由主要评审员独立进行重复筛选、数据提取以及报告指南依从性、偏倚风险和适用性评估,分歧通过与另外两名独立评审员讨论解决。
信息来源
2024 年 6-8 月进行系统文献检索,评估 AI 和计算机辅助诊断工具对腰椎 PIVD 的诊断准确性。主要检索 EBSCOHost、Embase 等数据库 2014-2024 年的文献,因医学 AI 发展迅速,此时间段限制可确保纳入技术和医学上先进且临床适用的 AI 模型。通过灰色文献二次筛选补充可能遗漏的相关出版物,灰色文献需为经同行评审的全文,方法和结果信息充足,无研究地点限制。
检索策略
研究检索和选择遵循人群、干预、比较、结局和研究设计(PICOS)策略,使用 “人工智能”“CAD”“腰椎间盘突出症” 等自由文本词、受控关键词和相关医学主题词(MeSH),通过布尔运算符组合,各数据库完整检索策略可向通讯作者索取。
纳入标准
纳入标准为:探索不同 AI 或 CAD 工具诊断腰椎 PIVD 的原始研究、可获取全文、英文发表、在既定检索期内发表。排除无全文、非英文、检索期前发表、非基于影像的 AI/CAD 模型、非诊断性研究、涉及动物模型、研究人群不同以及综述文章、病例报告和致编辑信等。无研究环境或地理区域限制。
研究选择
首先基于标题和摘要的关键词检索,按纳入标准评估摘要,对 eligibility 不确定的文章获取全文。两位独立作者最终决定研究纳入,分歧由第三位评审员解决。所有评审员双重检查最终纳入研究,使用 Rayyan 自动筛选工具进行研究选择筛选。
数据提取
使用标准化数据提取表收集信息,包括作者、发表年份、数据类型等。由主要作者独立提取数据,经两位作者双重检查,分歧通过与第三位作者协商解决。
数据合成
数据合成采用双管齐下的方法。定性合成提供纳入研究的全面叙述性概述,总结研究特征和主要发现,为 Meta 分析的定量结果提供背景并探索研究间异质性。定量合成统计合并符合条件研究的结果,主要结局为诊断准确性(包括特异度和灵敏度),使用诊断固定效应模型计算合并估计值及置信区间,通过 I2 统计量评估异质性,若检测到显著异质性,计划进行亚组分析或 Meta 回归。使用漏斗图和 Egger 检验评估发表偏倚,Meta 分析结果通过森林图呈现,使用 OpenMeta [Analyst] for MacOS 软件进行 Meta 分析。
质量与偏倚风险评估
使用多变量预测模型透明报告(TRIPOD)清单评估研究对报告指南的依从性,该清单含 22 项建议。同时使用预测模型研究偏倚风险评估工具(PROBAST)评估偏倚和适用性,PROBAST 通过四个领域的信号问题进行整体和细化评估,因纳入研究多为开发和验证预测模型,故选择这两种工具。
结果
研究选择
初步数据库检索确定 46 条潜在记录,排除重复和不合格记录后,39 条进入标题和摘要筛选,排除系统综述和非针对性研究后,18 项选择全文检索,成功获取 12 篇全文,最终纳入 8 项研究进行定性系统综述,其中 3 项符合定量 Meta 分析标准。PRISMA 流程图清晰展示研究选择过程。
研究特征
8 项研究均探索基于 AI 或 CAD 的腰椎 PIVD 诊断,主要分析 MRI 的分割和分类,仅 1 项同时考虑脊髓造影结果。研究样本量 30-1500 例,使用多种 MRI 序列。诊断模型分为 CAD、深度学习和机器学习方法,分割技术从传统方法发展到先进深度学习模型,特征提取方法多样,分类算法包括支持向量机等。
性能指标方面,灵敏度 82.6%-94.77%,特异度 81.48%-98.78%,准确性 68.5%-97.2%,F1 分数 55.22%-95.71%。结果显示深度学习架构正取代传统 CAD 和机器学习,但样本量和特异度报告存在差异,凸显未来 AI 驱动椎间盘研究需统一评估标准。
质量评估
TRIPOD 清单质量评估显示依从性较高,61% 的项目报告充分,透明度良好,但 35% 的关键项目未呈现,存在差距,“治疗描述” 项与研究范围无关未提及。虽总体依从性较强,但解决缺失项目可进一步提高研究完整性和证据水平。
偏倚风险评估
PROBAST 评估显示各领域存在不同程度的担忧,几乎所有类别都有低、中、高担忧混合情况,参与者(偏倚风险)等领域潜在高担忧,表明可能存在方法学缺陷影响模型可靠性。中高担忧增加偏倚影响研究有效性和普遍性的可能性,解决这些问题可提高未来研究的整体质量。
Meta 分析
因仅 3 项研究报告真阳性、真阴性、假阳性和假阴性值,故基于这 3 项研究进行定量合成。灵敏度森林图分析显示估计值范围 0.826-0.948,合并灵敏度 0.896(95% CI:0.867-0.919,I2=0%,P=0.003)。特异度森林图显示值范围 0.815-0.988,合并特异度 0.916(95% CI:0.895-0.933,I2=0%,P<0.001)。结果表明诊断性能良好,异质性极小,增强诊断工具在纳入研究中的可靠性。
摘要接收者操作特征(SROC)曲线显示高灵敏度和特异度,大多数数据点集中在左上角。
发表偏倚
诊断比值比的漏斗图显示研究分布不对称,提示可能存在发表偏倚,但 Egger 检验 P 值为 0.22(>0.05),表明观察到的不对称在统计学上不显著,虽漏斗图视觉检查暗示可能存在偏倚,但统计检验表明无实质性发表偏倚。
讨论
本系统综述和 Meta 分析旨在评估 AI 和 CAD 工具在腰椎 PIVD 诊断中的应用。定性合成表明,AI 驱动的诊断工具,尤其是深度学习和机器学习模型,在通过腰椎 MRI 等影像学分割和分类检测腰椎 PIVD 方面,在测试准确性、灵敏度和特异度等结局参数上表现出前景,凸显了 AI 在腰椎 PIVD 诊断中不断发展的作用及其提高诊断精度、减少变异性和增强临床决策的潜力。
AI 模型的诊断性能
纳入研究显示 AI 工具准确性 68.5%-97.2%,在诊断准确性等方面可能优于或与传统诊断技术相当,CycleGAN 等是表现出最高诊断准确性的 AI 模型之一。多数纳入文献,尤其是小样本研究中的高准确性可能源于过拟合,小数据集缺乏多样性易导致模型过度记忆训练数据。数据增强技术和生成对抗网络生成的合成数据可能夸大性能指标,在相同分布或相同受试者上测试缺乏独立验证也会导致准确性虚高。不平衡数据集需结合 F1 分数等补充指标衡量。评估高准确性需通过适当验证过程、多样化数据集和额外性能指标谨慎评估。
F1 分数 55%-95.71%,表明精确率和召回率平衡存在差异。YOLOV7 模型 F1 分数低表明假阳性和假阴性不平衡,强调评估模型性能时需同时考虑 F1 分数和准确性。
与脊髓造影、计算机断层扫描和 MRI 相比,这些模型灵敏度(82.6%-94.77%)和特异度(81.48%-98.78%)较高,凸显其临床应用潜力。值得注意的是,深度学习模型,尤其是结合卷积神经网络和生成对抗网络的模型, consistently 优于传统机器学习方法,表明先进神经架构在医学成像中的重要性日益增加。
分割和特征提取技术
基于影像学的 AI 诊断工具高度依赖分割和特征提取来检测诊断准确性。本研究回顾的文献采用了多种分割技术,从传统方法到先进的深度学习方法。深度学习分割方法正逐步取代传统方法,因其能更精确地描绘椎间盘等解剖结构,从而提高分类性能。
纳入研究中使用了多种特征提取方法,进一步通过捕捉相关的椎间盘特征有助于提高 AI 模型的性能。
AI 与专业人员对比
纳入研究均未直接比较 AI、CAD 模型与放射科医生等专业人员的表现,但研究结果表明这些模型的诊断准确性似乎与经验丰富的专业人员解读腰椎 MRI 相当或更好。先前文献报道专业人员解读存在显著观察者间差异,kappa 值 0.41-0.77,取决于具体发现和临床医生专业水平。据此,AI 工具诊断任务表现可能与放射科医生相当或更好,但因缺乏直接对比评估,无法得出明确结论。未来前瞻性研究应使用标准化数据集直接比较 AI 与人类解读,以更好地理解它们在临床实践中的互补作用。
挑战与局限性
尽管结果令人鼓舞,但 AI 诊断工具在广泛应用于临床实践前仍需克服多项挑战。首先,本综述纳入 8 项合格研究,仅 3 项提供可提取的 Meta 分析数据,数量相对较少,引发对发表偏倚的质疑,限制了定量结论的强度。此外,大多数模型基于机构特定数据集开发,样本量有限,易受过拟合影响,通用性存疑。重要的是,纳入研究均非前瞻性试验,也未在真实临床工作流程中测试。因此,如综述研究中因数据集和样本量波动导致结果差异所示,需要更大、标准化的数据集来提高 AI 模型的通用性。
其次,本研究结论在通用性方面需谨慎,因 8 项研究中仅 3 项报告足够数据纳入 Meta 分析。基于这些研究在结局报告和研究设计方面的方法学相似性,决定进行合并诊断准确性分析。尽管合并估计值无统计学异质性(I2=0%),但解释应谨慎。由于纳入研究数量有限,Meta 分析可能难以识别中小程度的异质性。模型架构、训练数据集等方面细微但具有临床意义的差异可能未被发现。为克服这一限制,对 8 项研究均进行了叙述性合成,提供了更全面的方法学和诊断能力背景见解。未来系统综述应尝试纳入更广泛的证据,并考虑应用 Meta 回归技术探索变异性可能来源。
最后,研究间缺乏统一的评估指标报告,使得 AI 性能评估及其与其他模型或传统诊断方法的直接比较变得困难。需要标准化报告框架和更高质量的研究来解决这一问题,确保基于 AI 的腰椎 PIVD 诊断的一致性和可靠性。
此外,除方法学局限性外,其临床应用还受诸多实际问题制约。一个重要问题是缺乏监管批准,综述中报告的大多数工具尚未获得监管机构批准,无法可靠用于日常使用。另一个挑战是许多深度学习模型如同 “黑箱”,结果缺乏明确解释。此外,大多数研究未测试这些工具在实际临床环境中的表现。若无最终用户反馈、工作流程整合和用户友好设计,即使高性能模型也可能未被充分利用。
最后,尽管深度学习模型表现优于其他模型,但它们依赖大量标注数据集训练 AI 工具,这凸显了数据可用性、标注准确性和处理需求方面的问题。
因此,未来研究可专注于开发基于大规模、多区域数据集训练的 AI 诊断模型,以提高诊断工具的稳健性和准确性。此外,将基于 AI 的诊断整合到临床工作流程中需要用户友好的界面、可解释性机制和可用性培训,以确保医疗专业人员接受。结合 AI 与专家驱动临床评估的混合模型可能在自动化和人类专业知识之间取得最佳平衡。此外,有必要进行前瞻性多中心试验,评估基于 AI 的腰椎 PIVD 诊断对临床结局和患者管理的实际影响,并比较其与专业人员(尤其是放射科医生)的有效性。
结论
本系统综述和 Meta 分析得出结论,AI 和 CAD 技术有望提高腰椎 PIVD 诊断的精确性和准确性。基于 CAD、深度学习和机器学习的 AI 工具具有较高的特异度和灵敏度,可与传统诊断方法相媲美,成为传统技术的替代方案。然而,广泛采用仍需性能评估标准化、更大数据集的可用性和使用以及与临床的顺利整合。人工智能驱动的诊断有望彻底改变腰椎 PIVD 的管理方式,加快诊断速度,提高临床医生判断能力和患者结局。
作者贡献
所有作者均声明符合当前国际医学期刊编辑委员会(ICMJE)的作者标准。
知情