编辑推荐:
这篇综述通过系统评价和荟萃分析,探究机器学习(ML)在识别全膝关节置换术(TKA)候选人方面的可行性。研究发现 ML 模型可行,基于 X 射线的模型预测性能最佳,但目前缺乏临床可用的高水平研究,构建专业数据库很关键。
引言
膝骨关节炎(KOA)是一种慢性关节疾病,以无菌性滑膜炎、软骨退变和骨质硬化为特征,会引发膝关节疼痛,限制患者行动能力,是中老年人致残的主要原因之一,全球约 85% 的骨关节炎病例为 KOA,男性和女性的发病率分别约为 40% 和 47%。对于标准治疗无效的 KOA 患者,全膝关节置换术(TKA)是缓解疼痛、改善膝关节功能的终极治疗手段。然而,约 12.7% 的患者术后效果不理想,5 年内需要翻修。因此,开发有效工具识别需要 TKA 手术的高风险 KOA 患者至关重要。近年来,人工智能在医疗保健领域备受关注,机器学习(ML)作为其独特应用,可通过数据分析进行学习、预测和决策,已在多种疾病预测中得到应用,也被用于 TKA 并发症风险分层和患者识别。但 ML 模型开发使用的变量多样,导致预测性能不一致。本研究旨在通过系统评价和荟萃分析,探究 ML 在识别 TKA 候选人方面的可行性。
方法
- 研究注册:本研究依据系统评价和荟萃分析的首选报告项目(PRISMA)指南进行,并在国际前瞻性系统评价注册数据库网站 PROSPERO 注册,ID 为 CRD 42023443948。
- 纳入与排除标准:纳入以 KOA 患者为研究对象、构建完整 TKA 风险预测模型、未进行外部验证的风险预测模型、基于不同数据集的 ML 研究且以英文发表的文章;排除荟萃分析、综述、指南、专家意见等,仅进行差异因素分析未构建完整模型,缺乏预测准确性指标,以及样本量小于 30 例的研究。
- 数据来源与检索策略:检索 PubMed、Web of Science、Cochrane 和 Embase 数据库中截至 2024 年 9 月 15 日发表的原始研究,使用主题词和自由词组合检索,同时检索纳入研究的参考文献。
- 研究选择与数据提取:将检索到的研究导入 EndNote 20 软件,通过自动标记和手动筛选去除重复研究,再经标题和摘要筛选、全文筛选确定最终纳入研究,由两名研究者提取关键信息,如有分歧请第三位研究者协助决策。
- 研究偏倚风险评估:使用预测模型偏倚风险评估工具(PROBAST)评估原始研究的偏倚风险,涉及参与者、预测变量、结果和统计分析四个领域,由两名研究者独立评估并交叉核对。
- 结局指标:以 c 指数衡量模型整体准确性,c 指数范围为 0.5 - 1,0.5 表示完全随机无预测价值,1 表示预测结果与实际结果完全一致,大于 0.7 表示模型准确性较理想。
- 合成方法:对 ML 模型的 c 指数进行荟萃分析,若 c 指数的 95% 置信区间和标准误差缺失,参考相关研究进行估计。考虑到不同模型变量和参数的差异,采用随机效应模型(DerSimonian 和 Laird 方法),使用 R 4.2.0 软件进行分析。
结果
- 研究选择:最初检索到 2751 篇文章,排除 863 篇重复文章、1824 篇经标题和摘要筛选不符合的文章,对剩余 14 篇进行全文 review,最终纳入 13 篇文章,其中 11 篇文章的 25 个模型纳入荟萃分析。
- 研究特征:13 篇文章发表于 2019 - 2024 年,随访时间 5 - 10 年,研究来自多个国家。数据来源多样,包括 Osteoarthritis Initiative Cohort 等。建模变量方面,4 个模型使用临床特征,5 个模型使用影像组学,16 个模型同时使用临床特征和影像组学。影像组学中,10 个模型基于 X 射线,4 个基于 MRI,6 个基于 MRI 和 X 射线组合,1 个基于 US 和 X 射线组合。
- 研究偏倚风险:部分模型因纳入排除标准、预测因素评估、结果判定时间间隔、缺失数据处理方法、内部验证等信息缺失或不足,被评为高风险或不确定风险,部分模型为低风险。
- 合成结果:根据变量来源分类,训练集中,基于临床特征的模型 c 指数为 0.713(0.628 - 0.799),基于影像组学的模型为 0.841(0.777 - 0.904),基于临床特征和影像组学组合的模型为 0.844(0.815 - 0.873)。其中,基于 X 射线的模型 c 指数为 0.895(0.865 - 0.924) ,基于 MRI 的模型为 0.755(0.508 - 1.000)。验证集中,基于临床特征、影像组学、临床特征和影像组学组合的模型 c 指数分别为 0.656(0.526 - 0.786)、0.861(0.806 - 0.916)、0.831(0.799 - 0.863) ,基于 X 射线的模型 c 指数为 0.882(0.825 - 0.939),基于 MRI 的模型为 0.725(0.499 - 0.950)。
讨论
早在 2009 年就有研究利用 ML 方法预测 TKA 患者术后步态,之后 ML 在 TKA 领域的研究日益增多。本研究是首次评估 ML 预测 KOA 患者 TKA 需求可行性的系统评价和荟萃分析。结果表明,ML 模型在识别 TKA 候选人方面表现理想,X 射线数据是最常用的建模变量,LR 和 DL 模型更受欢迎。基于 X 射线数据的模型在训练集和验证集的表现均优于其他模型。虽然 X 射线在诊断软组织疾病方面存在局限,但在评估膝关节状况、制定治疗策略方面有重要意义。
不过,本研究存在一些局限性。符合荟萃分析的原始研究较少,部分亚组模型数量少,影响结果准确性。纳入研究中除 X 射线外的建模变量使用有限,影响模型预测性能。多数研究基于特定队列建模,数据库并非为构建 ML 模型设计,可能缺乏前瞻性数据且数据不完整,建模变量选择受数据库访问权限影响,增加研究复杂性,还可能削弱模型性能。此外,仅用 c 指数评估模型性能可能导致误判,且未分析发表偏倚。
结论
ML 模型在识别 TKA 候选人方面具有可行性,基于 X 射线的 ML 模型预测性能最佳。但目前缺乏可用于临床应用的高水平研究,建模参数质量和数据库架构严重限制了 ML 模型的准确性。构建更具针对性和专业性的数据库,对推动 ML 模型的发展和临床应用至关重要。