基于可解释机器学习的儿童胰胆管合流异常术后胆管炎预测模型构建与验证
《BioData Mining》:An explainable machine learning model for predicting postoperative cholangitis in pediatric surgical patients with pancreaticobiliary maljunction
【字体:
大
中
小
】
时间:2025年11月20日
来源:BioData Mining 6.1
编辑推荐:
本研究针对胰胆管合流异常(PBM)患儿术后胆管炎(POC)预测难题,开发了一种基于随机森林(RF)的可解释机器学习模型。研究团队利用多中心临床数据,通过Boruta和LASSO算法筛选出9个关键预测因子,最终模型在测试集上ROC-AUC达0.890,并通过SHAP方法实现模型可解释性,为PBM患儿术后个体化管理提供重要工具。
在儿童外科领域,胰胆管合流异常(Pancreaticobiliary maljunction, PBM)是一种需要特别关注的先天性畸形。这种疾病的特征在于胰管和胆管在十二指肠壁外异常汇合,导致胰液和胆汁异常混合。如果不及时干预,可能引发胆道穿孔、胰腺炎甚至胆道恶性肿瘤等严重并发症。虽然手术是治疗PBM的有效方法,但术后长期随访中发现,约13%-17%的患儿会出现术后胆管炎(Postoperative cholangitis, POC),这种并发症可能导致反复发作的胆管炎、胆汁性肝硬化、肝功能衰竭,甚至危及生命。
目前,临床上面临的一个重要挑战是如何在术前准确识别哪些患儿术后容易发生胆管炎。传统的统计方法难以处理复杂的临床数据关系,而机器学习方法虽然具有强大的预测能力,但其"黑箱"特性又限制了在临床实践中的应用。因此,开发既准确又可解释的预测模型,对于实现PBM患儿的个体化术后管理具有重要意义。
在这项发表于《BioData Mining》的研究中,毛慧敏等研究人员开展了一项创新性工作,旨在开发并验证一种可解释的机器学习模型,用于预测PBM患儿术后胆管炎的发生风险。研究团队收集了来自苏州大学附属儿童医院(中心I)和徐州儿童医院(中心II)的337例PBM手术患儿的临床数据,通过严谨的研究设计和先进的分析方法,成功构建了一个性能优异且临床实用的预测工具。
研究团队采用了几项关键技术方法:首先,他们通过Boruta算法和最小绝对收缩和选择算子(LASSO)进行特征筛选,从35个临床特征中确定了13个重要预测因子;其次,使用合成少数类过采样技术(SMOTE)处理数据不平衡问题;然后,比较了六种机器学习算法(随机森林、自适应提升、梯度提升机、逻辑回归、高斯朴素贝叶斯和支持向量机)的性能;最后,应用SHapley Additive exPlanations(SHAP)方法提供模型的可解释性分析,揭示各特征对预测结果的贡献度。
研究团队通过组合使用Boruta和LASSO两种算法,从35个初始特征中筛选出13个与POC显著相关的预测因子。这些特征包括性别、术前胆管炎、术前胰腺炎、Todani IVa型分类、胆总管直径、胆道结石、胆周液体积聚、右肝动脉异常位置、白蛋白、γ-谷氨酰转移酶(GGT)、手术时间、出血量和炎症浸润程度。Spearman相关性分析显示这些特征之间不存在多重共线性问题(相关系数均<0.85),确保了模型的稳定性。
在六种机器学习模型中,随机森林(RF)模型表现出最优异的预测性能。在训练集中,RF模型的ROC曲线下面积(ROC-AUC)为0.915,精确召回曲线下面积(PR-AUC)为0.806;在独立测试集中,ROC-AUC为0.890,PR-AUC为0.764。模型的校准曲线显示良好的拟合度,Brier评分在训练集和测试集中分别为0.179和0.164。决策曲线分析(DCA)进一步证实了该模型在较宽阈值概率范围内具有临床实用性。
通过SHAP方法,研究团队对最终RF模型进行了全局和局部解释。全局特征重要性排名显示,胆道炎症浸润程度是影响预测的最重要因素,其次是胆总管直径、白蛋白水平、出血量和Todani IVa型分类。SHAP摘要点图直观展示了各特征对预测概率的正负影响方向,其中仅白蛋白水平对POC预测呈负向影响,其余8个特征均呈正向影响。
胆道炎症浸润程度作为最重要的预测因子,反映了胆道组织损伤程度和相关的免疫反应状态。严重的炎症浸润会损害胶原沉积,破坏组织连接,影响胆道结构完整性。胆总管直径增大可能加重胆道淤胆,创造细菌定植环境,同时促进胆道纤维化,增加手术难度和术后并发症风险。低白蛋白水平可能反映患儿的营养状况和肝功能储备,手术出血量则间接反映手术复杂程度和组织损伤情况。
研究结论表明,这种基于可解释机器学习的方法能够有效预测PBM患儿术后胆管炎的发生风险。最终RF模型整合了9个易于获取的临床特征,在独立测试集上表现出优异的预测性能(ROC-AUC=0.890)。通过SHAP方法实现的模型可解释性,使临床医生能够理解每个特征对预测结果的贡献,增强了模型在临床实践中的可信度和可用性。
该研究的重要意义在于首次为PBM患儿的术后胆管炎风险预测提供了可靠的量化工具。对于识别出的高风险患儿,临床医生可以采取更加积极的术后监测策略,如加强影像学随访、密切门诊监测,甚至考虑预防性使用抗生素或胆道引流等干预措施。这种个体化的风险管理策略有望降低POC发生率,改善患儿长期生活质量和预后。
尽管该研究存在回顾性设计的局限性且样本量有限,但其创新性地将可解释机器学习应用于儿童外科术后并发症预测,为后续研究提供了重要方法论参考。未来需要多中心、大样本的前瞻性研究进一步验证该模型的临床效用,并探索其在不同类型POC(如吻合口狭窄、肝内胆管结石或反流性胆管炎)预测中的特异性表现。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号