机器学习模型（XGBoost）结合SHAP可解释性预测创伤性脑损伤患者急性肾损伤：一项基于MIMIC-IV数据库的比较研究

《Frontiers in Medicine》：Comparative machine learning to predict acute kidney injury in traumatic brain injury: a MIMIC-IV cohort with SHAP interpretation

【字体：大中小】 时间：2026年03月03日 来源：Frontiers in Medicine 3.0

编辑推荐：

　　本文通过对MIMIC-IV数据库2986例创伤性脑损伤（TBI）患者进行系统性分析，比较了七种机器学习（ML）模型对急性肾损伤（AKI）的预测性能。研究显示，集成算法（尤其是XGBoost）在区分度（AUC 0.775）、校准和临床净获益上均优于传统逻辑回归（LR），为TBI这一高危人群提供了兼具高精度与可解释性的早期风险分层工具。

本文是一项基于重症监护医学信息集市（MIMIC-IV）数据库的回顾性队列研究，聚焦于创伤性脑损伤（TBI）患者这一临床高危群体。急性肾损伤（AKI）是重症监护病房（ICU）中常见且严重的并发症，在TBI患者中尤为普遍，与不良神经学预后和死亡率增加独立相关。然而，传统的生物标志物如血清肌酐和尿量存在延迟性和不敏感性，导致早期识别困难。因此，开发准确、早期且临床可应用的预测工具具有迫切需求。本研究旨在通过比较多种机器学习（ML）模型，寻找预测TBI患者发生AKI的最佳算法，并借助SHapley Additive exPlanations (SHAP) 方法提升模型的可解释性，从而为临床决策提供透明、个体化的支持。

研究人群与数据

研究从MIMIC-IV（版本3.0）数据库中筛查了85,242例首次入住ICU的患者。在排除了ICU住院时间短于24小时（n = 18,018）和非首次入住ICU的患者（n = 9,216）后，剩余67,224例患者。通过国际疾病分类（ICD-9/10）代码，从中识别出2,986例TBI患者，并仅纳入其首次ICU入院记录。研究的首要终点是ICU住院期间发生的AKI，其定义严格遵循肾脏病：改善全球预后（KDIGO）标准。最终，在2,986例TBI患者中，有2,045例（68.5%）发生了AKI，其余941例（31.5%）未发生。

基线特征分析显示，与未发生AKI的患者相比，AKI患者年龄更大、体重更重，且血清葡萄糖、血钠、收缩压（SBP）和体温水平更高，而尿量显著降低，接受机械通气的比例也更高。这些差异具有统计学显著性，初步揭示了AKI患者的临床特征谱。

研究方法与模型构建

研究的预测模型仅使用患者入住ICU后24小时内可获得的信息，来预测整个ICU住院期间发生AKI的风险。提取的变量涵盖人口统计学、生理测量、实验室指标和干预措施（如机械通气）。对时间变化的预测因子，采用首个24小时内的极值（如尿量取最小值，肌酐、葡萄糖、体温取最大值）。对缺失值超过20%的变量予以剔除，异常值在1%和99%百分位数处截断，并使用链式方程的多重插补（MICE）方法处理剩余缺失数据。

为了获得稳健且具有临床一致性的预测因子集，研究综合使用了最小绝对收缩和选择算子（LASSO）、基于随机森林的Boruta算法以及逻辑回归（LR）进行特征选择。通过100次自助法（Bootstrap）迭代验证稳定性，最终确定了一组在多种方法中均被一致保留的核心预测因子，包括：尿量、机械通气、体重、年龄、葡萄糖、血钠、收缩压（SBP）和体温。

基于这八个核心预测因子，研究构建并比较了七种机器学习模型：逻辑回归（LR）、决策树（DT）、随机森林（RF）、极端梯度提升（XGBoost）、轻量梯度提升机（LightGBM）、支持向量机（SVM）和人工神经网络（ANN）。将数据集按7:3的比例划分为训练集和验证集。采用网格搜索结合5折交叉验证对模型超参数进行优化，并针对AKI发生率高（68.5%）的类别不平衡问题，在所有适用模型中进行了类别权重调整。

模型性能评估与比较

模型性能通过多个维度进行全面评估，包括区分度（受试者工作特征曲线下面积AUC及95%置信区间CI）、校准度（校准曲线）、临床净获益（决策曲线分析，DCA）以及准确率、灵敏度、特异度、阳性预测值（PPV）、阴性预测值（NPV）和F₁-分数等分类指标。

在独立验证集（30%的数据）上，集成学习模型整体表现优异。其中，XGBoost模型展现了最佳的综合性能：AUC为0.775（95% CI: 0.747–0.802），准确率为74.4%，灵敏度高达88.3%，F₁-分数为0.83。随机森林（RF）紧随其后，AUC为0.768，灵敏度为85.9%，F₁-分数为0.82。传统的逻辑回归模型虽然具有中等程度的区分能力（AUC 0.763），但特异度很低（36.5%），限制了其临床效用。LightGBM达到了最高的特异度（50.4%），但AUC相对较低（0.741）。决策树（DT）模型的表现最差（AUC 0.728，准确率69.3%）。校准曲线和决策曲线分析的结果均支持XGBoost模型具有最佳的校准度和最高的临床净获益。这些结果一致表明，集成学习方法，特别是XGBoost和随机森林，在预测TBI患者AKI风险方面，比传统的逻辑回归和单树分类器更具优势和临床适用性。

模型可解释性分析：SHAP的贡献

为了提升“黑箱”模型的临床可接受度，研究对性能最佳的XGBoost模型应用了SHAP方法进行全局和个体层面的解释。

SHAP摘要图显示，尿量和机械通气是对模型预测贡献最大的两个特征，其次是体重、年龄、血清葡萄糖、血钠、收缩压（SBP）和体温。这一排序与基线特征分析中观察到的临床关联高度一致，验证了模型所学规律的临床合理性。SHAP依赖图进一步揭示了预测因子与AKI风险之间的非线性关系。例如，尿量减少会显著增加SHAP值（即提升AKI风险），而葡萄糖和血钠水平升高也与风险增加呈正相关。

在个体层面，SHAP力图和瀑布图能够直观展示特定患者的各项特征如何共同影响其最终的预测风险。例如，对于高风险患者，模型可以清晰指出，其低尿量、需要机械通气、较高体重等因素是推高预测风险的主要驱动力；而对于低风险患者，则可能显示其较年轻的年龄或正常的血钠水平起到了保护作用。这种患者级别的透明化解释，极大地弥合了复杂机器学习算法与临床 bedside 决策之间的鸿沟，使模型输出变得可理解、可信任。

外部验证与泛化能力

为了评估模型的泛化能力，研究还在eICU协作研究数据库（版本2.0）中进行了外部验证。该数据库包含2014年至2015年间美国208家医院的ICU数据。应用相同的纳入排除标准后，共纳入3,067例TBI患者，其中1,831例（59.7%）发生了AKI。

在外部验证队列中，所有模型的预测性能（AUC）均有所下降，这在不同医疗机构的数据集间进行模型迁移时是常见现象。尽管如此，XGBoost和随机森林依然保持了最高的区分度，AUC为0.620（95% CI: 0.603–0.637）。各模型性能的相对排名在内部和外部验证中保持一致，XGBoost和随机森林始终是表现最好的模型，这支持了研究模型选择和核心预测因子在不同TBI人群中具有一定的普适性和稳健性。

讨论与展望

本研究证实，集成机器学习模型，特别是XGBoost，在预测TBI患者AKI方面，在区分度、校准度和临床效用上均优于传统逻辑回归。研究不仅追求预测精度，还通过SHAP框架实现了模型的可解释化，使“黑箱”变得透明。SHAP分析锁定的核心预测因子（尿量、机械通气等）具有明确的临床病理生理学基础，例如尿量是KDIGO标准的核心，机械通气反映了“肺-肾交互”的病理过程，而高龄、高血糖、高血钠、体重增加等均是已知的AKI危险因素或TBI常见并发症。这使得模型预测具有坚实的临床逻辑支撑。

当然，研究也存在局限性。例如，尽管进行了外部验证，但模型性能在跨中心数据上有所衰减，提示未来需要通过前瞻性、多中心研究，在标准化数据收集的基础上进一步验证和优化模型。此外，MIMIC-IV数据库源自单一学术中心，可能存在选择偏倚。

展望未来，多个方向值得探索：将纵向时间序列特征和更复杂的时序模型（如循环神经网络）纳入框架，可能进一步提升早期预警能力；整合新型肾损伤生物标志物（如NGAL, [TIMP-2]·[IGFBP7]）可能提高预测的敏感性；最终，将优化后的可解释ML模型整合到电子病历系统中，形成实时临床决策支持工具，有望实现对TBI患者AKI风险的早期、个体化预警和干预，从而改善患者预后。

结论

本研究系统比较了七种机器学习模型对创伤性脑损伤患者急性肾损伤的预测效能，确定XGBoost为最优模型，其在区分度、校准度和临床净获益方面表现均衡。通过SHAP可解释性分析，明确了尿量、机械通气、体重、年龄、葡萄糖、血钠、收缩压和体温八个核心预测因子及其贡献度，这些因子与AKI的临床病理机制紧密关联。该研究为TBI患者AKI的早期风险分层提供了一个兼具高精度与高透明度的预测工具框架，经过进一步的前瞻性多中心验证后，有望集成到临床工作流程中，辅助实现个体化诊疗和及时干预。

热点排行