编辑推荐:
该综述对比了机器学习(ML)和逻辑回归(LR)模型预测经皮冠状动脉介入治疗(PCI)结局的性能。纳入 59 项研究,经荟萃分析发现,二者在预测死亡率、主要不良心血管事件(MACE)等结局上无显著差异,且 ML 研究存在偏倚风险高、解释复杂等问题。
经皮冠状动脉介入治疗(PCI)现状与预测模型发展
PCI 自 1977 年应用以来,成为冠心病(CAD)主要治疗手段。尽管技术不断进步,但术后急性肾损伤、出血、死亡等并发症并不罕见。为识别高风险患者、评估预后,基于传统统计方法如逻辑回归(LR)的多种预测模型应运而生,像美国国家心血管数据登记风险评分(NCDR-CathPCI 风险评分)、Mehran Score、纽约州风险评分等,SYNTAX score II 还用于预测 PCI 术后长期死亡率。
与此同时,机器学习(ML)作为新兴技术,通过自动从数据中学习模式进行预测或决策,与传统统计方法聚焦假设检验不同,它更关注预测准确性和模式识别。ML 模型如随机森林、神经网络等能捕捉数据中复杂的非线性关系,理论上可发现传统方法可能遗漏的变量间微妙交互作用。然而,ML 模型也面临挑战,如需要更大数据集、仔细调整以避免过拟合,且部分模型解释性不如 LR。加之医学领域多数 ML 研究使用回顾性数据,其临床实用性评估也滞后,因此,在 PCI 临床实践和预后评估中,是否应从传统统计模型转向 ML 模型尚不明确,有必要对相关文献进行系统回顾和批判性评价。
研究方法
本研究的系统综述和荟萃分析方案在国际前瞻性系统评价登记册(CRD42023494659)注册,并依据 PRISMA 2020 声明进行报告。研究未涉及患者或公众参与。
研究的纳入标准为使用 ML 或深度学习(DL)模型预测 PCI 或原发性 PCI 术后死亡率、MACE、住院期间出血和急性肾损伤(AKI)的研究。排除标准包括未提供 c 统计量、仅用 ML 模型进行特征选择、非英文文献、仅使用逻辑或 LASSO 回归模型的研究。若有多篇研究使用相似数据集,仅纳入患者数量较多的研究进行荟萃分析。其中,短期死亡率定义为随访 < 1 年,长期死亡率为随访≥1 年,MACE 定义为至少包含死亡、心肌梗死、冠状动脉血运重建、中风和因心力衰竭住院这五个组成部分中的三个。
检索范围涵盖 PubMed、Embase、Web of Science 和 Scopus 数据库,检索时间从建库至 2023 年 12 月 11 日,检索策略为 “machine learning” AND “percutaneous coronary intervention”,完整检索模板见在线补充文件 S1。
由两名独立 reviewers(A.V 和 S.N)先根据标题 / 摘要筛选文章,再进行全文筛选,意见不一致时通过共识解决;数据收集也由 A.H 和 A.M 独立完成。采用 CHARMS 清单和 PROBAST 工具,由 S.N 和 A.H 两名独立 reviewers 评估纳入研究的偏倚风险,评估仅针对验证数据集上表现最佳的 ML 模型。
数据分析时,使用随机效应荟萃分析汇总 c 统计量(即受试者工作特征曲线下面积,AUC ROCs)。若未提供相应 95% 置信区间,则根据 Hanley 和 McNeil 提出的方法,利用事件数和样本量计算。将同一研究中表现最佳的 ML 和基于 LR 的模型(LR 模型或传统风险评分)分别汇总,直接比较 ML 与 LR 的性能,还基于 LR 模型与 ML 模型特征数量和类型是否相同进行二次比较,使用基于 Hanley 和 McNeil 方法的 MedCalc 在线计算器比较汇总估计值,所有分析均使用 R 统计软件 4.2.1 版本和 metamisc 包完成。
研究结果
本系统综述共纳入 59 项研究,其中 15 项关于长期死亡率,25 项关于短期死亡率,9 项关于出血,16 项关于 AKI,7 项关于 MACE。
在长期死亡率研究方面,15 篇评估 ML 性能的文章中,7 篇纳入荟萃分析。多数研究存在问题,40% 未报告每变量事件数(EPV),无研究使用多重插补处理缺失值,53% 未报告缺失数据处理方法,仅 40% 报告模型校准,26% 有外部验证数据集。1 项研究偏倚风险低,93% 偏倚风险高,主要源于分析领域;适用性方面,40% 低关注,46% 高关注,13% 不明确。荟萃分析显示,ML 模型 c 统计量比 LR 高 5%(0.84 vs. 0.79,P-value =0.178) ,但差异无统计学意义;比较相似特征的 ML 和 LR 模型时,c 统计量差异为 3%(0.83 vs. 0.77,P=0.230) ;不同特征时差异为 6% ,同样无统计学意义,漏斗图评估无不对称性。
短期死亡率研究中,25 项研究纳入综述,10 项纳入荟萃分析。EPV 值范围为 0.4 - 52,仅 5 项研究 EPV>10。处理缺失数据的方法多样,多数研究处理方式不佳或未报告。ML 模型的汇总 c 统计量比统计模型高 6%,但不同特征数量模型比较时差异均无统计学意义。
9 项评估住院期间出血的研究中,33% 的 EPV 未知,仅 11% 使用多重插补处理缺失数据,无外部验证数据集。荟萃分析结果显示,ML 模型比 LR 有 4% 的净收益,但差异不显著(0.81 vs.0.77,P=0.261)。
16 项 AKI 预测的 ML 研究中,部分研究使用不同的缺失数据处理方法,50% 的研究未明确缺失数据处理方式,31% 在外部数据集验证模型,50% 检查模型校准,31% 未进行特征选择。纳入 4 项研究进行荟萃分析,ML 和 LR 模型的汇总 c 统计量相当(0.81 vs. 0.75,P=0.373) ,二次分析结果类似。
7 项 MACE 预测模型研究中,多数研究开发 1 - 10 年 MACE 预测模型,较少进行外部验证和模型校准。纳入 4 项研究进行 ML 与 LR 的荟萃分析,二者的汇总 c 统计量相似(0.85 vs. 0.75,P=0.406)。
讨论
本研究是首次对 PCI 中 ML 模型进行系统综述和荟萃分析。结果表明,ML 模型在预测 PCI 术后死亡率、MACE、AKI 和出血等结局上比 LR 有净收益,但差异无统计学意义。
纳入研究的偏倚风险分析发现诸多问题。许多研究未提供外部验证数据集,易导致过拟合。因为内部验证数据与训练数据相似,结果可能过于乐观,PROBAST 建议使用交叉验证而非简单数据分割,但简单交叉验证在 ML 预测研究中也可能存在数据泄露问题,更好的方法是嵌套交叉验证,然而评估的研究常忽略这一点。数据预处理在数据分割前进行也会导致数据泄露,增加过拟合风险,但在 ML 研究中很少详细讨论,难以评估。
研究还发现多数文章中 EPV 不足。PROBAST 指南建议传统建模方法 EPV 至少为 10,而 ML 技术可能需要更高的 EPV,有研究表明 ML 模型所需 EPV 至少是 LR 的 10 倍,甚至建议阈值为 200,但多数研究 EPV 低于 10。此外,对比 ML 和 LR 模型时,二者使用的特征数量常存在差异,LR 模型特征较少,且 ML 模型常与基于不同数据集、特征更有限的传统风险评分比较,可能导致 ML 模型结果更优。同时,许多研究未报告模型校准,而校准对临床决策至关重要。在涉及时间事件数据的结局预测中,多数长期死亡率和部分 MACE 研究未使用时间事件模型,现有多种基于 ML 和 DL 的时间事件模型可弥补这一不足。
本研究结果与以往研究相符。如 Dhiman 等发现肿瘤学中 ML 研究在样本量、缺失数据处理等多方面存在不足;Mortazavi 等提出 ML 模型只有使用合适特征训练才可能提高性能;Shi 等的验证研究表明基于 ML 的 PRAISE 评分高估部分风险,GRACE 2.0 评分的 AUC 高于 PRAISE。
研究局限性
本研究存在一定局限性。不同 ML 研究方法多样,可能导致异质性,虽仅比较同时提供 LR 和 ML 模型的研究,并对特征集相似的研究进行二次分析,但仍可能无法完全消除异质性。部分结局如出血相关数据的文章数量有限,可能降低统计效能。研究仅纳入英文文章,可能引入发表偏倚。
研究结论
ML 和 LR 模型在预测 PCI 术后结局上无统计学差异。纳入文章的方法学评估存在样本量小、缺乏外部验证、可能的数据泄露和过拟合等问题。尽管 ML 模型在大样本下可能表现更好,但目前其黑箱性质使 LR 模型在临床应用中更具优势。未来研究应明确报告方法学,遵循 PROBAST 和 CHARMS 指南,采用嵌套交叉验证,合理处理缺失数据,纳入外部验证队列,以更可靠地比较 ML 和 LR 模型。