基于血液生物标志物的机器学习模型在肺结核早期诊断中的创新应用与临床转化研究

《BMC Infectious Diseases》:Development of a machine learning model for early pulmonary tuberculosis diagnosis using blood test biomarkers

【字体: 时间:2025年11月07日 来源:BMC Infectious Diseases 3

编辑推荐:

  本研究针对结核病(TB)诊断成本高、速度慢的全球性难题,开发了一种基于常规血液指标的机器学习(ML)诊断工具。研究人员通过回顾性分析728例TB患者和2718例健康对照数据,利用梯度提升机(GBM)构建诊断模型,测试集AUC达0.831,特异性85.5%。SHAP分析确定PLR、MLR和PDW为关键预测因子,并开发了交互式Shiny应用。该研究为资源有限地区提供了低成本、高特异性的TB筛查方案,通过分阶段诊断策略可实现早期发现与资源优化的平衡。

  
结核病(TB)至今仍是全球最致命的传染病之一,每年导致超过1000万新发病例和130万死亡病例。尽管结核病可防可治,但诊断延迟、报告缺口和高危人群筛查不足等问题持续制约着全球结核病防控进程。传统诊断方法如痰涂片镜检和细菌培养存在灵敏度有限、耗时长等局限,而新兴的组学技术又因仪器依赖性强、重现性差等因素难以在临床推广。这种诊断困境在资源有限地区尤为突出,迫切需要开发低成本、可扩展的早期筛查工具。
在此背景下,陈良琼团队在《BMC Infectious Diseases》发表的研究开创性地将机器学习技术应用于常规血液指标分析,构建了一个兼具高精度与临床实用性的结核病早期诊断模型。研究人员收集了海安市人民医院和建湖医院2022年1月至2024年9月期间的临床数据,最终纳入728例结核病患者和2718例健康对照。通过系统比较七种机器学习算法,发现梯度提升机(GBM)模型表现最优,在测试集上AUC达到0.831,特异性为85.5%,灵敏度为64.4%。更引人注目的是,当将分类阈值调整至0.24时,灵敏度可提升至83.6%,展现出优异的筛查潜力。
研究团队采用多项创新技术方法:通过LASSO回归(Least Absolute Shrinkage and Selection Operator)和前向选择算法筛选关键特征;使用ROSE(Random Over-Sampling Examples)技术平衡训练集;利用SHAP(SHapley Additive exPlanations)进行模型解释;最后将模型部署为交互式Shiny应用程序。这些方法的综合应用确保了模型既具有预测准确性,又具备临床可解释性和易用性。

研究对象特征分析

研究团队对3446名参与者进行基线特征分析,发现结核病患者较非结核病患者更年轻(训练集:61.23±17.15 vs. 64.35±13.09岁),且男性比例显著更高(73.0% vs. 48.7%)。血液学分析显示结核病组呈现典型贫血模式:血红蛋白(Hb)、红细胞计数(RBC)和红细胞比容(Hct)显著降低,而血小板计数(PLT)升高,淋巴细胞计数(LYM)降低。炎症比值在结核病组明显异常,中性粒细胞-淋巴细胞比值(NLR)、血小板-淋巴细胞比值(PLR)和全身免疫炎症指数(SII)均显著升高。这些差异在训练集、验证集和测试集中保持高度一致。

数据预处理与特征工程

为处理训练集中的类别不平衡问题(原始TB/no-TB比例≈1:3.7),研究采用ROSE算法进行重采样。重采样后特征分布保持稳定,所有特征的平均变化率<5%,标准差的增加控制在34%以内。多重共线性诊断显示所有变量均适合建模,平均方差膨胀因子(VIF)为1.86(范围:1.14-2.39),远低于公认阈值5。

机器学习模型构建

通过多阶段建模策略开发结核病诊断模型。LASSO回归筛选出15个核心血液学指标,包括Hct、Hb、PLT、MCH、MPV、MCHC、PDW、LYM、MONO等。基于这些特征训练七种机器学习模型,特征重要性分析显示PLR在所有模型中 consistently排名最高。前向特征选择进一步优化维度,验证集AUC在8-11个特征时达到峰值(GBM:0.880)。

GBM模型性能验证

在测试集(n=690)评估中,GBM表现出最优异的整体性能:准确率81.0%,AUC 0.831。校准曲线显示重新校准后的GBM模型预测概率与观察结果之间具有良好的一致性,测试集Brier得分为0.1174。决策曲线分析(DCA)表明,在0.0-0.5阈值范围内,GBM模型的净收益均超过"全治疗"和"不治疗"参考线。比较两种阈值策略下的GBM性能显示:在默认阈值(0.5)下,灵敏度=0.644,特异性=0.855;在优化阈值(0.24)下,灵敏度提高至0.836,特异性降至0.599。

敏感性分析

通过年龄和性别匹配的病例对照研究进行敏感性分析,在控制这些潜在混杂因素后,GBM模型在区分结核病与非结核病方面仍保持良好的判别能力:AUC=0.8401,灵敏度=0.6573,特异性=0.8531,准确率=0.7552。

SHAP可解释性分析

SHAP分析量化了每个特征对模型输出的贡献。全局分析确定PLR为最具影响力的特征(平均|SHAP|=0.588),其次是MLR、PDW和LYM。蜜蜂群图进一步显示PLR和MLR主要推动风险上升,而MPV表现出双向效应。通过对测试集中高、中、低风险代表性患者的个体预测分析,揭示了模型基于炎症标志物组合进行风险分层的逻辑。

列线图与Shiny交互界面

研究构建了包含11个关键特征的列线图,通过可视化评分系统实现个体化风险预测。同时开发了集成参数输入、诊断输出和模型解释三大功能面板的Shiny交互界面,实现了基于血液学参数的梯度提升模型解释,为临床决策提供透明支持。
本研究通过系统验证表明,基于常规血液比值(如PLR、MLR)构建的梯度提升机(GBM)模型可作为结核病经济有效的早期筛查工具。该模型的核心预测因子具有明确的生物学解释:PLR反映了结核病患者炎症激活与免疫抑制共存状态,MLR直接关联单核-巨噬细胞通路激活,PDW则指示炎症过程中的血小板生成紊乱。这些发现为模型性能提供了合理的生物学基础。
研究的创新性体现在多个层面:数据层面仅使用基础全血细胞计数(CBC)参数,显著降低了应用门槛;方法学上特别强调模型可解释性,通过SHAP分析揭示决策机制;临床应用层面将最终模型部署为交互式开源Shiny在线工具,为资源有限地区提供了实用工具。与既往研究相比,该模型在保持高特异性(85.5%)的同时,通过阈值调整可实现灵敏度平衡,适应不同临床场景需求。
研究人员建议采用分阶段诊断策略:初始筛查使用低风险阈值(0.24)最大化灵敏度,对模型阳性病例再进行GeneXpert确认。这种策略有望显著减少GeneXpert检测量,优化资源配置。随附的Shiny应用程序通过用户友好界面提供实时风险评分,有助于弥补资源不足地区的诊断缺口。
该研究的局限性包括样本主要来自两家医院,人群代表性有限;模型仅在回顾性数据上开发和内部验证,缺乏前瞻性验证;对照组目前仅包含未感染个体,未纳入常见呼吸道疾病患者。未来改进方向应包括:在多民族人群中扩大验证,纳入多样化比较组评估鉴别诊断能力,探索与新型生物标志物的整合及模型参数优化。
总之,这项研究为结核病早期诊断提供了具有临床转化价值的机器学习解决方案,其低成本、高可及性特点尤其适合高负担地区的结核病防控需求。随着进一步验证和完善,该工具有望成为现有结核病诊断体系的重要补充。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号