
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于LightGBM算法的可解释深度学习模型预测中国山东半岛川崎病患儿静脉免疫球蛋白耐药性研究
【字体: 大 中 小 】 时间:2025年08月29日 来源:BMC Pediatrics 2
编辑推荐:
本研究针对川崎病(KD)患儿静脉免疫球蛋白(IVIG)耐药性预测难题,通过机器学习算法构建高效预测模型。研究人员回顾性分析山东半岛914例KD患者临床数据,采用LightGBM算法筛选出CRP、血清钠、白蛋白等6项关键指标,建立的LightGBM-Clinic模型AUC达0.9725,为临床早期识别IVIG耐药高风险患儿提供精准工具,对改善冠状动脉病变(CALs)预后具有重要意义。
川崎病(KD)作为儿童获得性心脏病的主要病因,其最严重的并发症冠状动脉病变(CALs)威胁着全球患儿的生命健康。尽管静脉免疫球蛋白(IVIG)联合阿司匹林已成为标准治疗方案,但10-20%患者出现IVIG耐药现象,导致持续发热和CALs风险显著升高。传统预测模型如Kobayashi评分存在地域局限性,而新兴机器学习方法虽展现潜力却面临"黑箱"困境。如何建立兼具高精度与临床可解释性的预测工具,成为困扰儿科医生的现实难题。
来自青岛大学妇女儿童医院的研究团队创新性地将可解释人工智能技术应用于KD诊疗领域。研究纳入2015-2023年山东半岛6家分院914例KD患儿临床数据(768例IVIG敏感,146例耐药),采用SMOTE算法平衡数据集后,通过LightGBM等5种机器学习模型进行系统比较。研究团队特别运用Split和Gain方法解析变量重要性,最终构建出临床实用的精简预测模型。
关键技术方法包括:1) 回顾性收集山东半岛6家医院914例KD患者83项临床指标;2) 采用倾向评分匹配(1:4)和SMOTE算法处理数据偏倚;3) 应用LightGBM等5种机器学习算法建立预测模型;4) 通过Split和Gain方法评估变量重要性;5) 十折交叉验证评估模型性能。
【Demographics of the patients】
研究纳入的584例IVIG敏感与146例耐药患儿经倾向评分匹配后基线特征均衡。相关性分析筛选出22项实验室指标,其中白细胞计数、中性粒细胞百分比、血小板等指标与IVIG耐药显著相关。
【Differential analysis】
通过小提琴图可视化分析发现,19项实验室指标在两组间存在显著差异(P<0.05),包括C反应蛋白(CRP)、血清钠、白蛋白等炎症和代谢指标,这些指标被纳入模型训练。
【Model performance】
在5种机器学习模型中,LightGBM表现最优,测试集AUC达0.9936,灵敏度0.9507,特异度0.9449。模型精准区分IVIG耐药与敏感病例的能力通过混淆矩阵得到直观展示。

【特征重要性分析】
采用Split和Gain方法量化变量贡献度,CRP、血清钠、白蛋白、血红蛋白(HB)、中性粒细胞百分比和血小板(PLT)被确定为最具预测价值的6项指标。基于此构建的LightGBM-Clinic精简模型仍保持优异性能(AUC=0.9725)。

这项发表于《BMC Pediatrics》的研究具有重要临床价值:首先,建立的LightGBM-Clinic模型首次针对山东半岛KD人群实现IVIG耐药精准预测,AUC优于传统评分系统;其次,筛选出的6项关键指标与临床认知高度吻合,包括CRP(10mg/L)、血清钠(<135mmol/L)等易于获取的常规检测指标;最后,研究采用可解释AI技术破解机器学习"黑箱"难题,通过Split和Gain方法阐明变量贡献度,增强临床医生的信任度。
研究也存在一定局限:回顾性设计可能引入选择偏倚,且未纳入遗传等分子标志物。未来可通过多中心前瞻性研究进一步验证,并探索表观遗传因素对预测模型的改进作用。该成果为区域性KD精准诊疗提供新范式,对降低CALs发生率和改善患儿预后具有重要实践意义。
生物通微信公众号
知名企业招聘