XGBoost机器学习算法用于预测患有冠心病的老年患者的不计划再次入院情况
《Geriatric Nursing》:XGBoost machine learning algorithm for predicting unplanned readmission in elderly patients with coronary heart disease
【字体:
大
中
小
】
时间:2025年09月19日
来源:Geriatric Nursing 2.4
编辑推荐:
本研究采用XGBoost模型预测老年冠心病患者1年非计划性再入院风险,通过回顾性收集2137例患者数据,结合特征选择和SHAP分析,发现留观时间、Charlson指数、单核细胞计数等是主要预测因子,模型在测试集的AUROC为0.704。
本研究聚焦于中国老年冠心病(Coronary Heart Disease, CHD)患者1年内的非计划性再入院风险预测,通过构建极端梯度提升(Extreme Gradient Boosting, XGBoost)模型,旨在提高预测的准确性并识别关键的再入院风险因素。冠心病作为全球范围内影响最为严重的慢性疾病之一,其发病率和死亡率持续上升,尤其是在老年人群中更为突出。世界卫生组织(WHO)数据显示,心血管疾病已成为全球范围内死亡的主要原因之一,而冠心病作为其中最常见的类型之一,对患者的健康和医疗系统的负担构成了重大挑战。尽管现代医学在治疗技术上取得了显著进展,但冠心病患者仍然面临较高的再入院风险。尤其是在中国,目前大多数研究和医疗系统更关注30天内的再入院率,而忽视了对1年内再入院情况的系统性评估。这种局限性可能无法全面反映慢性病管理的系统性问题,因为1年内的再入院率更能体现医疗体系在长期管理中的缺陷。因此,建立一个能够准确预测1年再入院风险的模型,有助于医疗工作者在患者出院后采取更有针对性的干预措施,从而降低再入院率并改善患者预后。
研究采用XGBoost算法构建预测模型,其优势在于能够处理复杂的数据关系,同时保持良好的可解释性。与传统的统计方法相比,XGBoost在临床预测模型中表现出更强的性能,这使得它成为本研究的理想选择。在实际应用中,XGBoost能够识别多个关键的预测变量,如住院天数(Length of Stay, LOS)、年龄调整的Charlson合并症指数(Age-adjusted Charlson Comorbidity Index, ACCI)、单核细胞计数、血糖水平和红细胞计数等。这些变量不仅与患者的临床特征密切相关,也反映了个体在疾病发展过程中的综合风险状况。研究中还采用逐步向前的特征选择方法,从医院信息系统中收集了大量临床数据,并通过预处理剔除了缺失率超过80%的特征,对剩余特征进行随机森林填充处理,从而提高数据质量并减少偏差。通过这种方式,最终构建了一个包含38个特征的XGBoost模型,其在测试集上的预测性能表现出良好的区分度和精准度。
模型的评估指标包括受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)、精确-召回曲线下面积(Area Under the Precision-Recall Curve, AUPRC)以及校准曲线。结果显示,该模型在测试集上的AUROC为0.704,表明其具有较强的预测能力;AUPRC为0.392,显示在特定阈值下的预测效果良好。此外,校准曲线表明模型在预测结果与实际发生率之间具有较好的一致性,这增强了其在临床应用中的可信度。决策曲线分析(Decision Curve Analysis, DCA)进一步验证了该模型的临床实用性,表明在一定的阈值范围内,模型能够为患者和医生带来显著的净收益,即在合理范围内识别出高风险患者并采取干预措施,有助于降低再入院率。
模型的特征解释通过SHapley Additive exPlanations(SHAP)分析完成,该方法能够直观地展示各个特征对预测结果的贡献度。结果显示,住院天数、Charlson合并症指数、单核细胞计数、血糖水平和红细胞计数是影响1年再入院风险的最重要因素。这些特征的显著性反映了其在疾病进展和患者健康状况中的核心作用。例如,住院时间较长的患者往往在出院后面临更大的再入院风险,这可能与他们在住院期间未能充分恢复或出院后缺乏有效的随访有关。同样,Charlson合并症指数较高的患者由于存在多种基础疾病,其再入院的可能性也更高。单核细胞计数与再入院风险之间的正相关关系则提示,单核细胞在冠心病的病理过程中可能扮演了重要角色,尤其是在动脉粥样硬化斑块的形成和成熟阶段。而血糖水平和红细胞计数的变化可能反映了患者整体代谢状态和血液系统功能的异常,这些异常可能是再入院的潜在诱因。此外,研究还发现一些特征,如血清钠、血清氯和血清镁,对降低再入院风险具有积极作用,这表明这些指标在某些情况下可能对患者的康复和健康维护具有保护作用。
本研究的另一个重要发现是,尽管有65.3%的再入院患者并不患有糖尿病,但他们的糖化血红蛋白水平表明血糖控制在整体上是相对良好的。这似乎与模型中糖尿病未成为主要预测因子的现象相吻合。然而,研究也指出,即使血糖控制良好,慢性糖尿病可能仍然通过长期的代谢紊乱和血管损伤机制对心血管系统造成潜在影响,因此部分糖尿病患者即使血糖水平接近正常,仍可能因其他因素而出现再入院。这一发现提示,血糖控制虽然重要,但不能完全作为预测再入院的唯一依据,还需要结合其他临床指标进行综合评估。
此外,本研究在模型构建过程中采用了严格的特征筛选机制,通过逐步向前的方法,结合岭回归模型确定最优特征组合。这种方法不仅减少了模型的复杂度,也提高了其在实际应用中的可操作性。同时,研究强调了模型的可解释性,这对于临床决策至关重要。医疗工作者在面对复杂的预测结果时,往往需要明确哪些因素最可能影响患者的健康状况,以便采取有效的干预措施。XGBoost模型在这一点上表现出色,能够清晰地展示各特征对再入院风险的贡献程度,从而为临床实践提供有力支持。
尽管本研究取得了一定成果,但也存在一些局限性。首先,研究数据来源于单一中心的回顾性分析,这可能限制了模型的外部效度,即其在不同医疗机构中的适用性。未来需要开展多中心研究,以验证该模型在更广泛人群中的预测效果。其次,虽然逐步向前的特征选择方法有助于减少主观偏差,但仍然可能遗漏某些重要的临床特征,如心脏康复、随访护理、家庭护理服务和患者的社会经济状况等。这些因素在慢性病管理中同样具有重要意义,未来研究可以进一步探索它们对再入院风险的影响。最后,模型的临床应用还需要与电子病历系统进行整合,以便在实际医疗场景中实现自动化预测和预警功能。此外,模型在老年患者和合并症患者中的表现可能受到算法偏差的影响,因此需要进一步优化以确保其在不同人群中的公平性和有效性。
综上所述,本研究通过构建一个基于XGBoost的预测模型,成功识别了中国老年冠心病患者1年再入院的关键风险因素。这一模型不仅能够帮助医疗工作者提前发现高风险患者,还能为制定个性化的干预策略提供依据。未来的研究可以进一步拓展模型的应用范围,增加更多临床和人口学特征,以提高其在不同人群和医疗环境中的适用性。同时,模型的临床推广还需要与现有的医疗信息系统进行整合,以实现更高效的预测和预警机制。通过不断优化和验证,该模型有望成为提升老年冠心病患者健康管理质量的重要工具,为减少再入院率和改善患者预后提供新的思路和方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号