基于机器学习的自发性蛛网膜下腔出血ICU患者死亡率预测模型构建与验证研究

【字体: 时间:2025年09月18日 来源:Frontiers in Neurology 2.8

编辑推荐:

  本研究基于MIMIC-IV数据库,采用LASSO回归筛选特征并构建8种机器学习模型,发现逻辑回归(LR)模型在预测自发性蛛网膜下腔出血(SAH)患者ICU治疗后院内死亡率方面表现最优(AUC=0.8646),通过SHAP分析揭示血糖、氧饱和度(SpO2)、年龄等12个关键临床指标与预后的显著关联,为早期风险分层和临床干预提供了数据驱动支持。

  

1 引言

自发性蛛网膜下腔出血(SAH)是一种致死率高、致残率严重的急性脑血管疾病,约占所有卒中类型的第三位,年发病率达9/10万。其中85%-95%为非创伤性自发性SAH,主要病因为颅内动脉瘤破裂(85%)和脑血管畸形。约三分之一患者在出血后数日或数周内死亡,幸存者多伴有长期功能障碍。传统单一特征预测方法存在滞后性,亟需通过机器学习整合多维度临床数据构建早期死亡风险预测模型。

2 方法

2.1 数据来源与人群

研究采用MIT发布的MIMIC-IV数据库(版本3.1),提取1,329例SAH患者ICU入院记录。最终纳入1,121例成年患者(排除未成年人、恶性肿瘤及特征缺失>20%者),按ICU转归分为生存组(870例)和死亡组(251例)。

2.2 特征选择与结局

基于文献和临床经验初选43个特征,包括人口学指标、生命体征、合并症、实验室检查(血细胞分析、凝血功能、血清离子、生化参数)及评分系统(GCS、SOFA、APS III、SAPS II)。通过方差膨胀因子(VIF)剔除5个存在严重多重共线性的特征(血红蛋白、红细胞压积、INR、PT、NMAP),保留38个特征。进一步采用LASSO回归(lambda.1se=0.026)最终筛选12个核心特征:血清钠最大值、SAPSII评分、入院年龄、尿素氮(BUN)最大值、血糖最大值、SOFA评分、心率最大值、APSIII评分、肝脏疾病、肌酐最大值、SpO2最小值、血小板计数。

2.3 缺失值处理

对缺失率<10%的特征采用中位数/众数填补,缺失率10%-20%的特征(PT、APTT)采用多重插补法,确保数据完整性。

2.4 模型构建与评估

将数据按8:2随机划分为训练集(897例)和测试集(224例),采用8种机器学习算法(LR、RF、LGBM、NB、DT、XGBoost、SVM、ANN)构建模型。评估指标包括AUC、准确率、精确率、召回率、Brier评分、Jordan指数和校准斜率。通过SHAP值解析模型可解释性。

3 结果

3.1 基线特征

死亡组患者年龄更大,更易出现电解质紊乱、凝血异常、高血糖和血小板减少,生命体征波动更显著(心率、体温、血氧饱和度)。

3.2 特征重要性

LASSO回归显示:血清钠、SAPSII、年龄、BUN、血糖、SOFA、心率、APSIII、肝病、肌酐为危险因素(系数为正);SpO2和血小板为保护因素(系数为负)。特征重要性排序前三位为血糖最大值、SpO2最小值、SAPSII评分。

3.3 模型性能

逻辑回归(LR)模型在测试集表现最优:准确率0.8545、召回率0.7826、AUC 0.8646、Brier评分0.1650。LGBM和XGBoost在训练集AUC接近1.0(0.9907/0.9780),但测试集显著下降(0.8396/0.8510),存在过拟合。LR模型训练集与测试集性能稳定,PR曲线显示其具有高精确率-召回率平衡性。

3.4 模型解释

SHAP分析表明:高血糖是死亡风险最强预测因子(SHAP值最高),低SpO2、高龄、高心率、低血小板、高钠血症、肝肾功能异常及高评分(SAPSII/SOFA/APSIII)均显著增加死亡风险。热力图和决策路径可视化验证了特征对个体预测的贡献度。

4 讨论

入院高血糖(无论是糖尿病性或应激性)与死亡率显著相关,机制可能与应激性高血糖加剧炎症反应相关。SpO2与死亡风险呈负相关,但文献报道存在U型关系(最佳区间94%-98%),本研究结果需进一步验证。高龄患者因器官功能储备下降更易出现不良预后。心率增快反映交感神经过度激活,可能导致心律失常甚至心脏骤停。血小板减少与症状性血管痉挛和出血风险增加相关。高钠血症提示下丘脑功能受损及颅内压升高,是神经功能严重损伤的标志。肝肾功能障碍通过电解质紊乱、凝血异常等途径增加死亡风险。SAPSII、SOFA、APSIII评分作为器官功能综合评估工具,高分值直接反映生理紊乱程度。

LR模型相较于复杂算法(如XGBoost、ANN)展现更好泛化能力,说明在中等规模临床数据中传统统计模型仍具优势。研究亮点包括:基于大规模公共数据库、严谨的多重共线性控制、多算法比较、SHAP可解释性分析、所选特征临床易获取。局限性在于缺乏外部验证、仅使用首日静态数据、未区分动脉瘤性与非动脉瘤性SAH。

5 结论

基于12个易获取临床特征构建的LR机器学习模型能有效预测自发性SAH患者ICU治疗后死亡风险,SHAP解析提供临床可理解的决策依据。该工具有助于早期识别高危患者、优化资源配置和针对性干预,最终改善临床预后。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号