基于机器学习的老年糖尿病合并NSTEMI患者28天死亡风险预测模型:来自MIMIC-IV数据库的研究
《Scientific Reports》:Machine learning-based mortality risk prediction model for elderly diabetic patients with non-ST-segment elevation myocardial infarction using MIMIC-IV database
【字体:
大
中
小
】
时间:2025年12月16日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对老年糖尿病合并非ST段抬高心肌梗死(NSTEMI)患者预后评估难题,利用MIMIC-IV数据库构建机器学习死亡风险预测模型。研究纳入5,272例患者,开发多种机器学习算法,结果显示XGBoost模型预测性能最优(AUC=0.86),SHAP分析揭示PaO2、Charlson合并症指数和APSIII评分为关键预后因素。该模型为临床早期风险分层提供精准工具。
随着全球人口老龄化进程加速,老年糖尿病合并非ST段抬高心肌梗死(NSTEMI)患者的临床管理面临严峻挑战。这类特殊人群由于器官功能储备下降、多种慢性疾病共存以及特定的代谢状况,其预后评估和风险分层存在独特困难。流行病学研究显示,55岁以上人群NSTEMI年发病率高达每10万人300-350例,其中30-40%患者合并糖尿病,而糖尿病患者的院内死亡率是非糖尿病患者的1.5-2倍。尽管已有GRACE和TIMI等评分系统用于NSTEMI预后预测,但这些基于普通人群的模型在老年人群中的应用存在显著局限性。
针对这一临床需求,Han-Lin Song等研究人员在《Scientific Reports》发表了题为"Machine learning-based mortality risk prediction model for elderly diabetic patients with non-ST-segment elevation myocardial infarction using MIMIC-IV database"的研究。该研究利用MIMIC-IV(Medical Information Mart for Intensive Care)数据库中5,272例年龄≥55岁的糖尿病合并NSTEMI患者数据,开发并验证了基于机器学习的28天全因死亡率预测模型。
研究采用回顾性队列设计,从MIMIC-IV数据库2.2版本筛选患者,排除标准包括ICU住院时间少于1天、入院1天内死亡以及数据缺失超过30%的病例。研究收集了入院24小时内的多维临床数据,包括人口学特征、生命体征、实验室指标、疾病严重程度评分和合并症信息。通过系统数据预处理流程,采用中位数填补数值特征缺失值,众数填补分类特征缺失值,并进行min-max归一化处理。特征选择使用基于逻辑回归的递归特征消除(RFE)方法,最终保留15个最具预测价值的特征。
模型开发采用多种机器学习算法,包括逻辑回归、随机森林、XGBoost、LightGBM和朴素贝叶斯,使用Optuna框架进行超参数优化,以五折交叉验证评估性能。模型解释采用SHAP(SHapley Additive exPlanations)值分析,通过多种可视化方法揭示特征贡献模式。
研究结果显示,XGBoost模型在测试集上表现最优,AUC值为0.86,Brier评分为0.12,显示出良好的判别能力和校准性能。决策曲线分析证实该模型在所有风险阈值区间均优于传统的APSIII、Charlson和OASIS评分系统。
SHAP分析揭示了关键预后因素的复杂非线性关系。PaO2、Charlson合并症指数和APSIII评分被确定为前三位最具影响力的预测因子。乳酸水平显示出最广泛的SHAP值分布范围(-0.5至1.5),其转折点约为2.0 mmol/L,超过此值后SHAP值线性增加,提示预后恶化。血小板计数(PLT)表现出独特的双向影响模式:低值区域(<150×109/L)显示正向预测贡献,而高值区域(>300×109/L)转为负向影响。
患者特征分析显示,非幸存者组年龄更大,女性比例更高,生命体征和实验室指标均显示更严重的器官功能障碍。非幸存者组的Charlson合并症指数、SOFA评分、APSIII评分等疾病严重程度评分显著高于幸存者组。
特征选择结果确定了15个关键预测变量,涵盖实验室指标、生命体征参数和临床评分系统三大维度。乳酸显示最高正系数(约4.0),而血红蛋白、总二氧化碳等指标呈负相关。
模型解释通过SHAP依赖图进一步揭示了主要预测变量的非线性影响模式。PaO2在0.4以下显示正向贡献,超过0.4后转为负向影响。APSIII评分与预测结果呈明显正相关,在0.3阈值后SHAP值显著增加。
个体病例的SHAP力图示分析展示了模型在具体预测中的工作机制,验证了关键指标在个体化预测中的价值。
决策曲线分析显示,该预测模型在所有风险阈值区间均保持正净收益,显著优于传统评分系统。
该研究的创新性主要体现在三个方面:首次针对老年糖尿病合并NSTEMI这一特殊人群开发专用预测模型;通过机器学习算法整合多维临床特征,提升预测准确性和稳定性;模型的可解释性分析揭示了临床变量与结果之间的复杂非线性关系,为风险评估提供新见解。
研究也存在一定局限性,包括使用单一医疗中心数据可能影响结果外推性、缺乏前瞻性外部验证、未纳入治疗相关变量等。未来研究将通过外部验证、开发临床决策支持工具等途径提升模型的临床应用价值。
这项研究为老年糖尿病合并NSTEMI患者的早期风险分层提供了有效的预测工具,通过可解释的机器学习方法揭示了关键预后因素的复杂作用模式,为个体化治疗决策和医疗资源优化配置提供了重要依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号