机器学习驱动的危重症癌症患者院内死亡率精准预测工具与动态列线图开发

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月05日 来源：BMC Medical Informatics and Decision Making 3.3

编辑推荐：

　　针对现有ICU评分系统（如APACHE II/SOFA）对癌症患者特异性不足的问题，研究人员利用eICU和MIMIC-IV数据库，通过LASSO回归筛选12项关键指标（如BUNmax、SpO2_min、血管活性药物使用等），构建六种机器学习模型。其中逻辑回归（LR）和极限梯度提升（XGB）模型表现最优，外部验证AUC分别达0.751和0.737，显著提升预测效能。研究结合SHAP解释性算法和动态在线列线图（https://icucancer2025.shinyapps.io/DynNomapp/），为临床医生提供实时决策工具，推动危重症肿瘤精准干预。

论文解读

在全球癌症负担持续加重的背景下，危重症癌症患者的预后管理成为临床难题。数据显示，约5%的癌症患者在确诊两年内需入住重症监护病房（ICU），而ICU患者中癌症患者占比高达15%。然而，现行ICU评分系统（如APACHE II、SAPS II和SOFA）主要针对普通危重人群设计，缺乏对癌症特有病理机制的考量，导致预测效能不足。这种“数据丰富而洞察贫乏”的困境，使得临床决策面临严峻挑战。

为突破这一局限，来自绍兴市妇幼保健院和温州医科大学附属第一医院的研究团队开展了一项创新性研究。他们利用美国多中心数据库eICU（训练集/内部验证集）和MIMIC-IV（外部验证集），纳入11,828例ICU癌症患者数据，通过机器学习技术开发院内死亡率预测工具。研究成果发表于《BMC Medical Informatics and Decision Making》，为危重症肿瘤精准医疗提供新范式。

研究方法精要

研究采用三阶段技术路线：

数据预处理：从eICU和MIMIC-IV数据库提取首次入住ICU的癌症患者数据，排除ICU停留<24小时或年龄<18岁者。收集入院24小时内12类临床指标（人口学特征、合并症、实验室指标、生命体征、干预措施），对缺失值采用中位数/众数填补。
特征工程：通过LASSO回归（10折交叉验证）从61个初始变量中筛选12项核心预测因子，包括血红蛋白最小值（Hb_min）、血尿素氮最大值（BUN_max）、血管活性药物使用等（图2）。
模型构建：基于筛选变量构建六种机器学习模型（KNN、LGBM、LR、RF、SVM、XGB），通过ROC曲线、校准曲线和决策曲线分析（DCA）评估性能，并利用SHAP算法解析模型可解释性。

核心发现与结果

1. 关键预测因子揭示疾病本质
通过死亡组与生存组的对比（表1），研究发现：

代谢与循环紊乱：死亡组BUN_max中位数达29.0 mmol/L（生存组：16.5 mmol/L，p<0.001），反映肾脏负荷与代谢危机；收缩压最小值（SBP_min）降至103 mmHg（生存组：112 mmHg）。
干预强度差异：死亡组血管活性药物使用率（30.2% vs 12.1%）和连续性肾脏替代治疗（CRRT）需求（9.1% vs 2.1%）显著升高。
器官功能障碍：合并脓毒症（40.2% vs 17.9%）和急性肾损伤（AKI）（29.7% vs 11.4%）比例显著失衡。

2. 模型性能对比：LR与XGB脱颖而出
在外部验证中（表3，图3-4）：

高敏感性需求满足：LR模型敏感性达95.5%（阈值0.153），XGB模型为89.7%，显著降低漏诊风险，契合ICU临床优先识别高风险患者的目标。
稳定性验证：XGB模型在训练集（AUC=0.817）、内部验证集（0.777）和外部验证集（0.737）波动最小，展现优异泛化能力。
临床实用性：决策曲线分析（图3G-I）显示，当阈值概率>0.3时，XGB模型的净收益远超其他模型，尤其在0.5-0.6阈值区间优势显著。

3. 可解释性工具赋能临床决策

SHAP解析风险驱动（图6）：全局分析揭示BUN_max（SHAP增益值0.55）和心率最大值（HR_max）为最强预测因子；个体分析可追溯单例死亡预测依据（如BUN_max=47.3 mmol/L贡献+0.631风险值）。
动态列线图应用：基于LR模型开发的在线计算平台（图5B），将12项指标转化为直观死亡概率，实现床边快速风险评估。

结论与展望

该研究成功构建了首个针对危重症癌症患者的可解释机器学习预测系统。LR和XGB模型通过外部验证证实其稳健性，而SHAP算法与动态列线图的结合，突破了传统“黑箱模型”局限。研究锁定十二项可快速获取的临床指标（如BUN_max、血管活性药物使用等），使模型在各级医院均具推广价值。

值得注意的是，当前模型仍存在特异性较低（LR外部验证仅23.3%）的局限，可能导致过度医疗负担。未来工作需整合多组学数据（如炎症标志物、基因表达谱），并探索深度学习框架以进一步提升精度。研究者已公开模型代码与在线工具（https://icucancer2025.shinyapps.io/DynNomapp/），为全球危重症肿瘤诊疗标准化提供开源解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号