《FASEB BioAdvances》:Prediction of Risk of Unplanned Readmission or Death in Elderly Heart Failure Patients During the Vulnerable Phase: Machine Learning With SHAP Interpretation
编辑推荐:
心力衰竭(HF)作为老年心血管疾病的终末阶段,导致频繁再入院并严重影响其生活质量。本研究旨在开发一种预测模型,用于预测老年HF患者在易损期内的再入院或死亡风险,并识别关键相关风险因素。研究人员将数据集随机分为70%的训练集和30%的验证集。对训练数据应用三种特
心力衰竭(HF)作为老年心血管疾病的终末阶段,导致频繁再入院并严重影响其生活质量。本研究旨在开发一种预测模型,用于预测老年HF患者在易损期内的再入院或死亡风险,并识别关键相关风险因素。研究人员将数据集随机分为70%的训练集和30%的验证集。对训练数据应用三种特征选择方法,随后使用六种机器学习(ML)算法(XGBoost、LightGBM、AdaBoost、GBDT、GNB和SVM)构建了18个预测模型。在验证集上使用受试者工作特征(ROC)曲线、灵敏度、准确度、特异度、F1分数和Brier分数评估每个模型的性能。采用SHapley加法解释(SHAP)来全局和局部解释特征贡献。11个模型的ROC曲线下面积(AUC)大于0.8,其中Boruta-XGBoost模型表现最佳,在验证集中AUC为0.873,灵敏度为0.839,准确度为0.769,特异度为0.747,F1分数为0.634,Brier分数为0.130。SHAP分析显示,前五个重要特征为血红蛋白(HGB)、血清游离甲状腺素(FT4)、年龄、糖尿病和血清钾(K)。基于Boruta-XGBoost的风险预测模型结合SHAP解释,在预测老年HF患者易损期内再入院或死亡方面表现出高预测准确性和稳健的可解释性。
心力衰竭(Heart Failure, HF)作为心血管疾病的终末阶段,在老年人群中导致频繁再入院并严重影响患者生活质量。出院后2-3个月内被称为“易损期”(Vulnerable Phase),此期间血流动力学不稳定、左心室充盈压升高及射血分数降低,使患者再入院和死亡风险高达约30%和15%。传统统计方法(如逻辑回归)难以捕捉高维非线性关系,预测性能有限;而机器学习(Machine Learning, ML)虽能建模非线性模式,但“黑箱”特性阻碍临床信任。因此,研究人员旨在开发并选择最优ML预测模型,并结合SHapley加法解释(SHapley Additive exPlanations, SHAP)框架解释模型,以准确预测老年HF患者易损期内非计划再入院或全因死亡风险,识别关键预后因素。该论文发表在《FASEB BioAdvances》。
研究人员从泸州市人民医院心血管内科纳入2020年1月1日至12月31日期间住院的649例老年HF患者(≥65岁),排除失访、严重认知障碍或精神病史、出院状态不确定者。研究中应用的主要关键技术方法包括:数据预处理采用K近邻(K-nearest Neighbors, KNN)算法填补缺失值(缺失率≤30%),并使用Min-Max标准化将特征缩放到[0,1];特征选择分别采用随机森林(Random Forest, RF)、Boruta算法以及二者结合的方法筛选重要特征;模型构建采用六种ML算法(XGBoost、LightGBM、AdaBoost、GBDT、高斯朴素贝叶斯[Gaussian Naive Bayes, GNB]和支持向量机[Support Vector Machine, SVM]),通过网格搜索结合五折交叉验证进行超参数优化;模型评估在验证集上使用受试者工作特征曲线下面积(Area Under the ROC Curve, AUC)、灵敏度、准确度、特异度、F1分数和Brier分数;最后采用SHAP框架对最优模型进行全局和局部解释。
**3.1 基线特征** 共纳入649例患者(男性367例,女性282例,中位年龄73岁),其中141例(21.7%)在出院后3个月内发生复合终点事件(非计划再入院或全因死亡)。事件组患者年龄更大(75.0岁 vs. 72.0岁)、住院时间更长(11天 vs. 9天),血红蛋白(Hemoglobin, HGB)水平(105.0 g/L)和左心室射血分数(Left Ventricular Ejection Fraction, LVEF)(51.2%)显著低于无事件组(121.0 g/L、58.0%),且事件组中纽约心脏协会(New York Heart Association, NYHA)IV级比例更高(29.8% vs. 13.6%),脑钠肽(Brain Natriuretic Peptide, BNP)水平更高(1323.25 ng/L vs. 824.30 ng/L)。
**3.2 特征选择** 初始58个特征中,排除缺失率>30%的5个变量(最高教育水平、左心室短轴缩短率、冠心病史、房颤史、SGLT2抑制剂使用),经相关性检验剔除3个变量(红细胞、总胆固醇、总胆红素)。RF筛选出前13个特征(BNP、HGB、LVEF、住院时间、FT4、年龄、肌酐、FT3、CRP、UA、LDL-C、HCY、K);Boruta算法基于Z分数识别出年龄、糖尿病、入院方式、住院时间、BNP、HGB、Cr、eGFR、FT4、LVEF、K、ALB、LV为重要特征;两种方法联合得到18个关键特征。
**3.3 模型构建与比较** 基于三种特征选择方法,在训练集上构建6种ML模型,在验证集上评估性能。基于RF特征的模型中,XGBoost和AdaBoost的AUC最高(0.861);基于Boruta的模型中,XGBoost AUC最高(0.873),灵敏度和准确度分别为0.839和0.769;联合特征选择模型中AdaBoost AUC为0.862。Boruta-XGBoost模型被选为最优,其AUC为0.873,F1分数0.634,Brier分数0.130。由于数据集严重不平衡(复合终点率21.7%,无信息率78.3%),模型准确度(76.9%)略低于无信息率,但高灵敏度(0.839)和优异AUC表明其能可靠识别高危患者。
**3.4 特征重要性与模型解释** SHAP分析显示,预测易损期再入院或死亡风险的前五位重要特征为HGB、FT4、年龄、糖尿病和K。SHAP图显示:年龄越大、BNP水平越高、HGB浓度越低、LVEF越低,复合终点事件发生概率越高。SHAP力例图展示了个体化预测:一名79岁糖尿病患者(LVEF 42%,HGB 102 g/L,Cr 90.3 μmol/L)的预测风险评分为0.979(高危);而一名68岁患者(住院6天,BNP 635.4 ng/L,HGB 140 g/L)的预测风险评分为0.003(低危)。
讨论部分总结:HF易损期患者风险高,ML模型(尤其是Boruta-XGBoost)结合SHAP解释可有效识别关键因素。研究中SHAP识别的前五位重要特征(HGB、FT4、年龄、糖尿病、K)中,FT4(p>0.05)在传统单变量分析中未被检测出,说明ML能捕获非线性关联。HGB反映贫血状态,与HF患者死亡和住院风险高度相关;FT4异常通过影响收缩/舒张功能和肾素-血管紧张素-醛固酮系统过度激活,成为易损期新潜在生物标志物;BNP和LVEF作为经典指标仍有显著预测价值。研究人员指出,尽管研究存在单中心、样本量小、缺乏外部验证、未纳入社会心理因素等局限性,但基于Boruta-XGBoost的模型联合SHAP解释,为临床早期干预提供稳健支持。
研究结论翻译:基于已识别的易损期再入院或死亡风险因素,制定个体化预防策略并实施针对性医疗干预对于改善老年心力衰竭患者预后至关重要。本研究利用多种机器学习算法成功开发了一个预测模型,用于评估这一高风险人群的再入院或死亡风险。此外,采用SHAP框架阐明了关键预测因素及其相对重要程度,增强了临床医生识别高危患者的能力。本研究的结果为早期临床干预提供了有力支持,有助于更准确、更循证地评估易损期不良事件风险,最终促进老年心力衰竭患者的预后改善。