基于多机器学习方法解析难治性肺炎支原体肺炎(RMPP)的关键预测特征及临床决策模型构建

【字体: 时间:2025年05月24日 来源:Scientific Reports 3.8

编辑推荐:

  为解决难治性肺炎支原体肺炎(RMPP)早期识别难题,天津儿童医院团队联合多机构通过回顾性研究整合29项临床指标,采用XGBoost等7种机器学习算法构建预测模型,最终筛选出发热时长、大环内酯类用药史等8项关键特征,模型AUC达0.93。该研究为RMPP的精准预警提供了可解释性AI解决方案,相关模型已开源应用。

  

肺炎支原体(Mycoplasma pneumoniae, MP)是儿童社区获得性肺炎的常见病原体,多数病例呈自限性,但约9.2%会发展为难治性肺炎支原体肺炎(RMPP),伴随严重肺内外并发症。传统统计方法在预测RMPP时存在非线性关系处理不足、模型泛化能力有限等问题,而机器学习虽能捕捉复杂特征却缺乏临床可解释性。这一矛盾促使天津儿童医院Yuhan Jiang、Xu Wang等团队开展多维度研究,通过整合临床大数据与可解释AI技术,构建兼具高精度和临床实用性的预测模型,成果发表于《Scientific Reports》。

研究团队采用回顾性队列设计,纳入2021年1332例MPP住院患儿数据,通过单因素回归初筛29项关联变量,运用逻辑回归、随机森林(RF)、XGBoost等7种算法建模,采用十倍交叉验证和SHAP值解析优化模型。关键技术包括:1) 基于电子病历的多维度数据提取(临床特征、实验室指标、影像学表现);2) 复合指标构建如严重MPP(SMPP)、NLR等;3) 针对样本不平衡的欠采样处理;4) 通过GitHub开源模型应用工具。

研究结果
Population and patient characteristics
队列分析显示RMPP组(n=122)较非RMPP组(n=1210)具有更长发热时间(10.05 vs 5.72天)、更高峰值体温(39.68 vs 39.10°C),且86.9% SMPP患儿进展为RMPP。实验室指标中,RMPP组乳酸脱氢酶(LDH)(416.28 vs 344.18 U/L)、丙氨酸转氨酶(ALT)(26.81 vs 14.96 U/L)显著升高(P<0.001)。

Machine learning model evaluation
XGBoost模型表现最优(测试集AUC=0.93,召回率0.97),十倍交叉验证后准确率提升至0.91。随机森林(RF)虽召回率略低(0.89),但关键变量贡献度与XGBoost一致。传统逻辑回归因线性假设限制,召回率仅0.74。

Sensitivity analysis of MP resistance
在292例接受耐药检测的亚组中,90%存在大环内酯耐药基因,但纳入该变量后模型AUC反降0.005,SHAP排序显示耐药性对预测贡献度最低,挑战了耐药性决定疾病严重度的传统认知。

Variable importance analysis of RMPP
SHAP解析确定8项核心预测因子:发热时长、院前大环内酯治疗、SMPP、LDH、NLR、ALT、峰值体温、广泛肺实变。其中NLR阈值3.51为分界点(>3.51倾向RMPP)。非线性分析揭示MPVLR(平均血小板体积-淋巴细胞比值)与血清钙呈现U型关联,提示免疫应答失衡可能参与RMPP发病。

讨论与结论
该研究首次通过机器学习量化了RMPP的多元预测特征,突破性地发现:1) 院前大环内酯治疗响应差是首要预警信号;2) SMPP作为复合指标比单一指标更具预测力;3) 传统关注的MP耐药性临床意义有限。模型开源(GitHub)实现了临床转化,其决策阈值(如NLR>3.51)可直接指导诊疗。局限性包括单中心回顾性设计及样本不平衡问题,未来需多中心前瞻性验证。研究为儿童RMPP的精准医疗提供了AI赋能的决策框架,也为感染性疾病预测模型的开发树立了新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号