用于早期预测同时患有高血压和心房颤动的ICU患者30天内死亡率的可解释机器学习模型:一项回顾性队列研究
《Informatics in Medicine Unlocked》:Interpretable machine learning model for early prediction of 30-day mortality in ICU patients with coexisting hypertension and atrial fibrillation: A retrospective cohort study
【字体:
大
中
小
】
时间:2025年11月22日
来源:Informatics in Medicine Unlocked CS9.5
编辑推荐:
本研究开发并验证首个针对ICU中高血压合并房颤患者的可解释机器学习模型,通过MIMIC-IV数据库分析1301例患者,提取17个临床特征(如血氧、头孢匹美使用、侵入性通气等),采用CatBoost等模型并验证其AUROC达0.889,结合SHAP、ALE和DREAM分析解释关键风险因子(Richmond-RAS评分、pO?、CefePIME、侵入性通气),为早期风险分层和精准决策提供工具,未来将扩展多中心验证和动态数据应用。
高血压和房颤(AF)是重症监护病房(ICU)中常见的共存疾病,它们共同增加了不良心血管事件的风险。然而,尽管这两种疾病的临床重要性不容忽视,目前针对同时患有高血压和房颤的ICU患者进行短期死亡率预测的研究仍较为有限。准确识别高风险个体对于及时干预和优化重症监护资源分配至关重要。本研究提出了一种具有临床可解释性的机器学习框架,旨在预测同时患有高血压和房颤的ICU患者在30天内的住院死亡率。通过分析来自MIMIC-IV数据库的1301名成人ICU患者的数据,该模型在预测性能和临床可解释性方面均表现出色,为重症监护环境中的精准决策支持提供了实用工具。
### 临床背景与研究意义
高血压是一种以持续血压升高为特征的慢性疾病,其发生与遗传易感性、饮食模式、肥胖、缺乏运动以及慢性压力等多种因素有关。全球范围内,高血压影响超过十亿成年人,其发病率持续上升,尤其是在低收入和中等收入国家。除了显著的健康风险,高血压还给全球医疗系统带来了沉重的经济负担,包括治疗成本、并发症管理费用和生产力损失。在早期阶段,高血压通常无症状,导致其诊断延迟,进而增加严重心血管疾病的风险,如中风、心力衰竭、心肌梗死、慢性肾病和房颤。
房颤是高血压患者中最显著的并发症之一,其风险比血压正常患者高出50%。此外,血压升高程度与房颤风险之间存在显著关联。例如,收缩压升高20 mmHg与房颤风险增加18%相关,而舒张压升高10 mmHg则与风险增加7%相关。在ICU环境中,房颤和高血压的共存显著复杂化了临床管理,导致较差的预后和延长的ICU住院时间。高血压患者中存在房颤时,其全因死亡率显著增加,相较于无房颤的患者,其死亡风险增加了2.55倍。在更广泛的高血压人群中,房颤也被证明与全因死亡率增加1.5到2倍相关。这些发现强调了在高血压ICU患者中早期识别和管理房颤的紧迫性,以改善临床结果并减少医疗资源负担。
### 研究方法与数据来源
本研究使用了MIMIC-IV数据库,这是一个由麻省理工学院和贝斯以色列女执事医疗中心共同维护的公开电子健康记录(EHR)资源。该数据库涵盖了从2008年至2019年间超过60,000例ICU住院病例的详细临床数据,包括人口学信息、生理测量值、实验室结果、药物使用、治疗程序和患者结局。其结构化模式、高时间分辨率和全面覆盖ICU各领域,使其成为开发和验证机器学习模型的理想数据来源。
研究目标是构建一个透明且具有临床依据的机器学习框架,用于预测同时患有高血压和房颤的ICU患者30天内的住院死亡率。分析流程包括患者队列构建、数据预处理、特征选择、处理类别不平衡问题、模型开发、性能评估和可解释性分析。患者入选标准基于结构化的ICD诊断代码、生命体征记录和人口统计学信息,排除了恶性肿瘤患者以减少终末期疾病对结局的混杂影响。研究人群包括年龄18岁及以上、首次入住ICU、且有高血压和房颤诊断的患者。对于每个患者,从ICU入住后的前24小时提取了五个临床领域(记录事件、实验室事件、程序事件、药物使用和入院/人口统计学信息)的结构化临床数据。
### 数据预处理与特征选择
为了确保预测准确性和临床可解释性,研究实施了一套结构化的数据预处理框架,以解决ICU数据集中的常见挑战,如缺失值、异构特征类型和类别不平衡问题。预处理步骤包括使用KNN方法对缺失值进行插补,对分类变量采用平滑目标编码,对连续变量进行标准化处理。此外,采用三步特征选择策略:首先去除缺失率超过20%或在少于100份患者记录中出现的变量,以确保特征估计的可靠性;其次,通过皮尔逊和斯皮尔曼相关系数分析连续变量的配对相关性,去除相关性超过0.8的变量以减少冗余和多重共线性;最后,通过互信息(MI)排序确定每个特征对30天住院死亡率的依赖性。这些步骤确保了最终特征集的临床相关性、数据可用性和与高血压和房颤病理生理学的相关性。
最终,研究确定了17个变量作为预测30天住院死亡率的关键特征,包括记录事件中的BUN、Richmond-RAS评分、PTT、磷、总胆红素、阴离子间隙、淋巴细胞差异、Braden营养评分、Braden湿润度、呼吸频率(设定)、活动/运动能力(JH-HLM)和峰压;实验室事件中的pO2;程序事件中的侵入性通气;药物使用中的头孢吡肟;以及入院/人口统计学信息中的年龄和Charlson合并症指数。这些特征涵盖了主要的生理轴,并反映了急性疾病表现和慢性脆弱性因素。
### 模型开发与性能评估
本研究构建了一个监督机器学习框架,包括六个模型架构。通过分层五折交叉验证和网格搜索优化超参数,模型在训练集和测试集上进行了评估。CatBoost在预测性能上表现最佳,其AUROC值为0.889(95% CI:0.840–0.924),准确率为0.831,F1值为0.522,灵敏度为0.837,特异性为0.830,阳性预测值(PPV)为0.379,阴性预测值(NPV)为0.976。此外,LightGBM、XGBoost、逻辑回归、朴素贝叶斯和神经网络等五种基线模型也被评估,以确认CatBoost在准确性和可解释性方面的最佳平衡。
研究还通过多种可解释性分析方法(如SHAP、ALE和DREAM)评估了模型的可解释性。这些方法一致识别了Richmond-RAS评分、pO2、头孢吡肟使用和侵入性通气等关键预测变量,反映了临床可解释的风险因素。通过这些分析,模型不仅提供了准确的预测,还揭示了影响死亡率的具体机制,从而支持临床决策。
### 结果与临床意义
研究结果显示,CatBoost模型在训练集和测试集上均表现出良好的预测性能。在训练集上,所有模型均达到了较高的分类性能,其中XGBoost的AUROC值为1.000,LightGBM为0.996,CatBoost为0.992。然而,在测试集上,CatBoost和逻辑回归的AUROC值为0.889(95% CI:0.840–0.924),表明其在未见数据上的稳健性。此外,CatBoost在灵敏度和特异性方面也表现出色,分别达到0.837和0.830,显示出其在识别高风险患者和排除低风险患者方面的可靠性。
通过SHAP分析,研究进一步揭示了各特征对模型预测的贡献。结果显示,Richmond-RAS评分、pO2、侵入性通气和头孢吡肟使用是影响30天住院死亡率的主要预测变量。此外,淋巴细胞比例、Braden营养评分和活动/运动能力(JH-HLM)等特征也被证明具有显著的预测价值。这些特征的临床意义与实际的病理生理机制相一致,表明模型能够有效捕捉影响死亡率的关键因素。
通过ALE分析,研究探讨了各特征对模型预测的局部影响。结果显示,Richmond-RAS评分与生存概率呈显著负相关,而pO2值在一定范围内具有保护作用。侵入性通气和头孢吡肟的使用则与较高的死亡风险相关,表明这些治疗措施可能是临床管理中的关键信号。这些分析结果为模型提供了详细的临床解释,有助于理解其预测机制。
通过DREAM分析,研究生成了个体死亡率的后验估计,以评估模型在真实世界中的适用性。模拟的输入数据揭示了多个主要风险因素,包括严重的Richmond-RAS评分、低pO2值、侵入性通气和头孢吡肟使用等。这些特征不仅反映了患者当前的生理状态,还结合了基础脆弱性和治疗干预的复杂性,为临床决策提供了多维度的参考。
### 讨论与未来研究方向
本研究提出了一种针对ICU中同时患有高血压和房颤的患者的可解释机器学习模型,填补了现有研究中的空白。与以往基于传统统计方法的研究相比,本研究的模型不仅具有较高的预测性能,还通过多种可解释性分析方法提供了临床意义的预测机制。这使得模型能够直接用于临床决策支持,而不仅仅是学术研究。
尽管本研究在方法上具有显著优势,但也存在一些局限性。首先,研究基于单一中心的回顾性分析,使用MIMIC-IV数据库,这可能限制了研究结果的普遍适用性。不同ICU数据库在数据收集协议、特征定义、统计处理方法和缺失数据的处理上存在差异,因此在其他机构的推广可能面临挑战。其次,某些临床相关特征(如超声心动图参数、药物剂量和液体平衡)未能纳入模型,因为它们在数据库中缺失或记录不完整。此外,模型仅使用了ICU入住后的前24小时的静态特征,未能捕捉到动态变化的数据,这可能影响其预测能力。未来的研究可以考虑引入时序模型(如LSTM)或基于注意力机制的架构,以更好地捕捉患者的时间轨迹。
此外,本研究的模型与传统的ICU评分系统(如APACHE II和SAPS II)相比,具有更高的预测性能和可解释性。然而,在实际部署中,还需要开发面向临床医生的界面,并与电子健康记录(EHR)系统集成,以支持其在临床环境中的应用。未来的工作还将扩展该框架,以适用于其他重症合并症群体,从而进一步支持临床决策。
### 结论
本研究开发并验证了一种临床可解释的机器学习框架,用于预测同时患有高血压和房颤的ICU患者30天内的住院死亡率。通过分析来自MIMIC-IV数据库的1301名患者的数据,模型成功识别了17个具有临床意义的特征,涵盖了记录事件、实验室结果、程序记录、药物使用和人口统计学信息等多个领域。CatBoost模型在预测性能和临床可解释性方面均表现出色,为重症监护环境中的精准决策支持提供了实用工具。未来的工作将集中在多中心数据集的外部验证和纵向数据的整合上,以进一步提高模型的通用性和临床适用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号