《European Journal of Medical Research》:Interpretable prognostic modeling for long-term survival of Type A aortic dissection patients using support vector machine algorithm
编辑推荐:
为解决 A 型主动脉夹层(TAAD)患者长期生存预后预测准确性的问题,研究人员开展了基于机器学习(ML)算法构建预测模型的研究。结果显示,支持向量机(SVM)模型表现出色,能有效识别高危患者,为临床提供可靠依据。
主动脉夹层是一种在全球范围内发病率不断上升的致命性疾病,其中 A 型主动脉夹层(TAAD)涉及升主动脉,病情危急,手术修复是主要治疗手段。尽管外科技术和生命支持系统在不断进步,但 TAAD 患者的预后仍然较差,院内和 30 天死亡率超过 20%。目前,虽然已发现一些预后指标,如心肺转流(CPB)持续时间、C 反应蛋白(CRP)水平等,但这些指标存在局限性,无法全面反映 TAAD 预后的复杂性,在临床实践中应用并不广泛。传统的回归方法,如逻辑回归和 Cox 回归,难以处理高维数据和复杂的相互作用,容易遗漏关键的预后因素。因此,为了提高 TAAD 患者长期生存预后预测的准确性,重庆医科大学附属第一医院等机构的研究人员开展了一项回顾性研究。
研究人员收集了 2017 年 9 月至 2020 年 12 月重庆医科大学附属第一医院以及 2019 年 10 月至 2020 年 4 月重庆大学附属中心医院收治的 TAAD 患者的临床数据。通过一系列筛选,最终纳入 244 例患者,其中 171 例用于模型训练和内部测试,73 例用于外部测试。研究人员采用随机森林算法对缺失数据进行处理,运用 LASSO(Least Absolute Shrinkage and Selection Operator)Cox 回归分析筛选出与长期生存相关的特征变量,最终确定 7 个变量用于构建模型。
基于支持向量机(SVM)算法,研究人员构建了预测模型,并采用十折交叉验证评估模型性能。同时,运用 SHapley 可加性解释(SHAP)方法对模型进行解释。
研究结果显示:
- 患者特征:纳入研究的 171 例患者中,平均年龄 48.82±9.61 岁,多数为男性(79.53%)。伴随休克的患者死亡率明显更高,有腹痛症状的患者在结局组更为常见,且发生终点事件的患者术后住院时间更短。
- 特征变量选择:通过 LASSO Cox 回归初步筛选出 16 个围手术期特征变量,经过进一步分析,排除部分变量后,最终确定血浆输注量、肌酐、手术时间、年龄、白细胞(WBC)计数、主动脉阻断(ACC)时间和 CPB 时间 7 个变量用于模型训练。
- 变量相关性:Pearson 卡方检验和热图分析表明,肌酐与血浆输注量、WBC 计数、手术时间存在显著相关性;CPB 时间和 ACC 时间虽相关性强,但反映的手术风险不同,均被保留在模型中。
- SVM 模型性能:SMOTE 方法有效改善了数据不平衡问题,SVM 模型在训练集和测试集上均表现出色,训练集 AUC 达到 0.9137(95% CI 0.9081–0.9203),内部测试集为 0.8533(95% CI 0.8503–0.8624),外部测试集为 0.8770(95% CI 0.8698–0.8982),且各性能指标在不同数据集上表现稳健,表明模型具有良好的临床实用性。根据风险评分分组,低风险组患者长期生存结局明显优于高风险组。
- SHAP 解释和特征重要性可视化:SHAP 分析显示,手术时间是影响 TAAD 患者长期生存的最关键因素,此外,血浆输注量、肌酐水平、年龄、WBC 计数、ACC 时间和 CPB 时间也对模型预测风险有显著影响。决策曲线进一步展示了模型的个体决策过程。
研究结论和讨论部分指出,该研究首次开发并验证了基于机器学习的 TAAD 患者长期生存预后模型,模型在不同数据集上预测性能良好,为临床医生评估 TAAD 患者长期预后提供了有力工具。然而,研究也存在一定局限性,如样本量有限、未纳入影像学指标等,未来需要更大规模的研究加以验证和完善。总体而言,该研究成果对提高 TAAD 患者的临床管理水平、改善患者预后具有重要意义,为后续相关研究奠定了基础。
研究人员在研究过程中用到的主要关键技术方法包括:数据处理上,利用随机森林算法对缺失数据进行填补;特征变量选择方面,采用 LASSO Cox 回归分析、单因素分析和相关性分析筛选变量;模型构建和评估时,运用 SVM 算法构建预测模型,并通过十折交叉验证评估性能,同时使用 SHAP 方法解释模型。