基于梯度提升决策树的机器学习模型预测外周动脉疾病患者首次术后生存率:一项单中心回顾性研究

【字体: 时间:2025年10月10日 来源:Journal of Cardiovascular Translational Research 2.5

编辑推荐:

  本刊推荐:为解决外周动脉疾病(PAD)患者术后生存预测对大数据依赖的难题,研究人员开展了一项基于单中心数据的机器学习(ML)研究。他们利用梯度提升决策树(GBDT)算法,成功构建了预测患者术后1年、3年和5年死亡率的模型,曲线下面积(AUC)分别达0.86、0.84和0.80。研究证实,即使在小样本数据下,利用常规临床和人口统计学参数也能开发出高性能预测工具,这对推动ML技术在临床的个性化、精准化应用具有重要意义。

  
在当今医学领域,人工智能(AI)与机器学习(ML)正以前所未有的速度改变着疾病预测与诊疗模式。然而,一个巨大的现实挑战横亘在其广泛临床应用的道路上:许多强大的ML模型如同嗷嗷待哺的巨兽,需要吞噬海量的、来自多中心的标准化数据才能被有效训练。对于外周动脉疾病(Peripheral Artery Disease, PAD)——一种表现为肢体缺血、严重影响生活质量和生存率的常见血管疾病——而言,精准预测患者在接受血运重建手术后的生存结局,是指导临床决策(如选择血运重建还是截肢)的关键。现有的一些优秀预测模型大多基于数万例患者的大型注册登记数据(如美国的VQI registry),但全球各地医疗机构的数据库互操作性差,数据难以共享,使得许多拥有自身历史数据但数量有限的医疗中心被排除在这场技术革命之外。那么,一个迫在眉睫的问题产生了:能否利用单个中心有限的临床数据,训练出同样高效、可靠的ML预测模型,从而让更多医疗机构受益?
为了回答这个问题,由Martina Doneda、Ettore Lanzarone、Fabio Riccardo Pisa、Bianca Pane、Giovanni Pratesi和Giovanni Spinella组成的研究团队开展了一项深入的研究,其成果发表在《Journal of Cardiovascular Translational Research》上。他们的研究旨在开发并验证一个基于机器学习工具,用于预测接受手术治疗PAD患者的生存率,并且特别关注模型的解释性,以增强临床医生对预测结果的信任和采纳。
本研究主要采用了以下关键技术方法:研究队列来源于意大利热那亚IRCCS Ospedale Policlinico San Martino医院血管外科2005年至2020年首次接受下肢PAD手术的1615名患者数据。研究利用梯度提升决策树(Gradient-boosted decision tree, GBDT)这一监督机器学习算法来构建预测术后1年、3年和5年全因死亡率的分类模型。采用SHapley Additive exPlanations (SHAP)值方法来评估各预测变量的重要性,以增强模型的可解释性。通过绘制并比较Kaplan-Meier生存曲线,并辅以多变量log-rank检验,从统计学上验证不同预测因子分层对生存率的显著影响。
ML Models
研究人员利用GBDT算法分别构建了术后1年、3年和5年死亡率预测模型。模型性能优异,其受试者工作特征曲线下面积(Area under the curve, AUC)分别达到0.86、0.84和0.80,显示出极高的预测 discriminative ability。具体到1年死亡率预测,模型在测试集上的灵敏度(True positive ratio, TPR)为23.64%,特异度(True negative ratio, TNR)高达95.59%。这表明模型非常擅长识别出那些确实会存活下来的患者(高特异度),同时在捕捉死亡事件上相对保守。对于3年和5年的预测,灵敏度逐步提升至54.17%和72.73%,特异度保持在88.57%和77.69%,说明模型对中长期预测的平衡性更好。通过SHAP值分析发现,疾病分期(根据ICD-9代码划分)是预测短期和长期死亡率最重要的因素。此外,年龄、慢性肾脏病(Chronic kidney disease, CKD)状态、住院时长(Length of stay, LOS)和共病总数也是贯穿三个时间点的关键预测因子。有趣的是,血脂异常(Dyslipidemia)的存在对1年和3年死亡率有轻微预测作用,而高血压仅与1年死亡率轻微相关,癌症则仅与5年死亡率有边际关联。
Kaplan-Meier Curves
Kaplan-Meier生存分析进一步可视化和证实了上述预测因子的重要性。对整个队列的分析显示,患者术后1年、3年和5年的生存率逐步下降。当根据SHAP值筛选出的重要预测因子进行分层时,log-rank检验均显示出统计学上的显著差异(p<0.05)。具体而言,慢性威胁性肢体缺血(Chronic limb-threatening ischemia, CLTI)患者的生存率显著低于间歇性跛行(Intermittent claudication, IC)患者。年龄越大、住院时间越长、共病总数越多,其生存曲线下降越快。合并CKD的患者其生存预后明显差于无CKD者。这些结果从传统生存分析的角度,强有力地支持了ML模型所识别出的关键风险因素。
本研究得出结论,即使利用单中心、样本量相对较小的数据集,仅依靠简单的临床和人口统计学参数,也能成功训练出性能优异的GBDT模型,用于预测PAD患者术后1年、3年及5年的死亡率,其预测能力可与基于大型数据库构建的模型相媲美。疾病分期是最重要的预测因子,其次是年龄、CKD状态、住院时间和共病总数。该研究的成功实践,有效突破了ML应用中的“大数据”壁垒, demonstrates that highly effective predictive models can be created even with limited patient populations。这为在数据资源有限的医疗机构中开发和部署个性化、精准化的AI预测工具铺平了道路,极大地推动了这些救命技术在更广泛医疗环境中的民主化应用。根据欧洲血管外科学会(ESVS)最新指南,对患者预期寿命的评估是选择血运重建策略的重要依据,本研究提供的预测工具恰好为此提供了数据驱动的决策支持,尤其适用于快速老龄化的欧洲人群现状。研究的局限性在于其回顾性设计以及长达15年的观察期内治疗策略(特别是腔内治疗技术)的演进可能带来的影响,但专注于死亡率这一硬终点在一定程度上 mitigates了这种影响。未来工作可着眼于前瞻性地验证该模型,并探索将其集成到临床工作流程中,以最终改善PAD患者的治疗决策和预后。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号