基于可解释机器学习的急性胰腺炎并发感染性胰腺坏死早期风险预测模型构建与验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Predicting infected pancreatic necrosis in acute pancreatitis using machine learning models and feature selection

【字体：大中小】 时间：2026年03月01日 来源：Scientific Reports 3.9

编辑推荐：

　　这项研究旨在应对急性胰腺炎(AP)患者并发感染性胰腺坏死(IPN)这一致命并发症的早期预测难题。研究人员通过回顾性分析728名AP患者的临床数据，开发并验证了可解释的机器学习个体化风险预测模型。最终，随机森林模型表现出最佳的综合性能，外部验证AUC达0.764，并识别出纤维蛋白原、APACHE II评分、D-二聚体、IL-6和C反应蛋白等关键风险预测因子，为AP患者的早期风险分层提供了一个透明、数据驱动的决策框架。

急性胰腺炎是一种常见的消化系统急症，病情可轻可重。在那些发展为重症的患者中，有一个尤其凶险的并发症叫做感染性胰腺坏死。可以想象，坏死的胰腺组织一旦被细菌侵袭，就会引发严重的全身性感染和多器官功能衰竭，死亡率非常高。因此，临床上迫切需要一个“预警系统”，能够在疾病早期就识别出哪些患者未来有高风险会发展为感染性胰腺坏死，从而让医生能提前进行更强化的干预和治疗。然而，现有的预测方法要么不够精确，要么难以在个体层面给出透明的解释，这让早期、精准的风险分层成了一项悬而未决的挑战。

为了解决这一问题，来自首都医科大学宣武医院的研究团队开展了一项研究，他们尝试将先进的机器学习技术引入到这个临床难题中。他们的目标不仅仅是建立一个预测模型，更希望这个模型是“可解释的”——也就是说，模型不仅能做出预测，还能告诉医生是哪些关键因素影响了预测结果，从而增加临床医生的信任度和模型的实际应用价值。他们的研究成果最终发表在了《Scientific Reports》期刊上。

为了开展这项研究，作者们主要运用了以下几个关键技术方法：他们首先收集了来自首都医科大学宣武医院的回顾性临床数据，构建了包含728名急性胰腺炎患者的主要队列用于模型开发。在模型构建阶段，他们采用了多种机器学习算法，并将正则化线性模型和基于树的算法与嵌入式特征选择技术相结合，以自动筛选关键预测变量并防止过拟合。模型的性能通过嵌套交叉验证和一个独立的时间外部验证队列（166名患者）进行了严格评估。最后，他们使用了SHAP（Shapley Additive Explanations）这一工具对表现最佳的模型进行了解释性分析，以阐明各个特征对预测结果的贡献。

研究结果

患者队列与基线特征

研究回顾性纳入了2017年至2023年在首都医科大学宣武医院住院的728名急性胰腺炎患者作为主要队列。这些患者根据是否发生感染性胰腺坏死被分为IPN组和非IPN组。基线特征分析显示，与未发生IPN的患者相比，IPN患者具有更高的急性生理学与慢性健康状况评分II（APACHE II）、序贯器官衰竭评估（SOFA）评分，以及更高水平的炎症标志物如C反应蛋白（CRP）、白细胞介素-6（IL-6）和降钙素原（PCT）。同时，IPN患者的凝血功能相关指标，如D-二聚体和纤维蛋白原水平也显著更高，而淋巴细胞计数和血细胞比容则更低。这些差异为后续的预测模型构建提供了潜在的生物标志物基础。

机器学习模型的开发与性能比较

研究人员共评估了六种不同的预测模型，包括逻辑回归（带L1和L2正则化）、随机森林、梯度提升机、极端梯度提升以及一个人工神经网络模型。所有模型均通过嵌套交叉验证在主要队列中进行训练和调优。性能评估显示，随机森林模型在区分IPN风险方面表现最为突出。在主要的模型开发队列中，随机森林模型取得了最高的受试者工作特征曲线下面积（AUC）。

模型的外部验证与校准

为了检验模型的泛化能力，研究使用了一个独立的、时间上外部的验证队列，该队列包含2022年至2023年入院的166名急性胰腺炎患者。在这个未见过的数据集上，随机森林模型再次证明了其稳健性，获得了0.764的AUC值，其95%置信区间为0.696-0.830，且具有统计学显著性。此外，该模型的精确度为0.893，召回率为0.604。概率校准评估中，随机森林模型取得了最低的Brier分数，表明其预测的风险概率与实际观察到的结果发生率之间具有良好的一致性，即校准度佳。

模型的可解释性与关键预测因子分析

利用SHAP方法对最优的随机森林模型进行解释。SHAP分析能够量化每个特征对于单个患者预测结果的贡献值。结果显示，对增加IPN风险贡献最大的前五个预测因子依次是：纤维蛋白原、APACHE II评分、D-二聚体、IL-6和C反应蛋白。这意味着这些指标的值越高，患者发生IPN的风险就越大。另一方面，较高的淋巴细胞计数和较高的血细胞比容被识别为保护性因素，即它们的值越高，患者发生IPN的风险则相对降低。这些发现与急性胰腺炎继发感染的临床病理生理学机制高度一致：感染和炎症会激活凝血系统（导致D-二聚体和纤维蛋白原升高），引发强烈的全身炎症反应（IL-6、CRP升高），并消耗免疫细胞（淋巴细胞减少）。

研究结论与讨论

本研究成功开发并验证了一个用于预测急性胰腺炎患者发生感染性胰腺坏死风险的、可解释的机器学习模型。其中，基于随机森林算法的模型展现出最佳的判别能力、良好的概率校准性能和较高的临床可解释性。该模型不仅能够在早期对患者进行个体化的风险分层，其通过SHAP分析揭示的关键预测因子——如纤维蛋白原、APACHE II评分、D-二聚体、IL-6和C反应蛋白（风险因素）以及淋巴细胞计数和血细胞比容（保护因素）——也为理解IPN的发生机制提供了数据驱动的见解。这些因子涵盖了炎症、凝血和免疫反应等多个关键病理生理途径，与已知的临床知识相吻合，增强了模型的可信度。这项工作为临床医生提供了一个透明、数据驱动的决策支持工具，有望助力于实现感染性胰腺坏死的早期预警和精准干预。当然，在投入临床常规应用之前，该模型还需要在前瞻性、多中心的研究中得到进一步的验证。

联系信箱：

粤ICP备09063491号

热点排行