基于机器学习探索常规血液学与血脂指标在间质性肺病中的识别价值:一项回顾性病例对照研究

《Frontiers in Medicine》:Identification of routine blood derived hematological and lipid indices in ILD through machine learning; a retrospective case-control study

【字体: 时间:2025年10月10日 来源:Frontiers in Medicine 3.0

编辑推荐:

  本研究通过机器学习算法(LassoCV、SVMREFCV和Boruta)系统筛选出中性粒细胞百分比(NE%)、淋巴细胞百分比(LY%)、单核细胞百分比(MO%)、血红蛋白(HGB)及新型比值指标中性粒细胞/高密度脂蛋白胆固醇(NHR)和淋巴细胞/高密度脂蛋白胆固醇(LHR)六大关键标志物。随机森林模型在验证集、测试集及外部队列中分别达到0.868、0.885和0.849的AUC值,展现出卓越的预测效能与临床转化潜力。

  
1 引言
间质性肺病(ILD)是一组以肺组织炎症和纤维化为特征的异质性疾病,其病因复杂、临床表现多样且预后差异显著。随着人口老龄化与环境污染加剧,ILD发病率显著上升,已成为全球重大健康挑战。当前诊断主要依赖高分辨率计算机断层扫描(HRCT)和肺功能检查,但这些方法存在辐射暴露、成本高及操作复杂等局限。血液生物标志物(如KL-6、SP-D和MMPs)因具有无创、便捷和可重复性等优势而日益受到关注。系统性炎症与免疫失调在ILD发展中起关键作用,但现有研究多集中于单一或有限组合的生物标志物,缺乏对多维血液参数的系统整合分析。传统统计方法难以处理高维数据与非线性关系,且缺乏大规模多中心验证,限制了生物标志物的筛选与诊断模型的开发。本研究旨在利用机器学习算法整合多维血液参数,构建高效的ILD预测模型,为早期诊断与个性化治疗提供新思路。
2 材料与方法
本研究采用回顾性病例对照设计,纳入2022年1月至2025年4月在湖滨院区接受胸部CT检查的603名受试者,其中ILD患者201例,非ILD对照组402例,按年龄(±3岁)和性别进行1:2匹配。所有ILD病例均经多学科团队(MDT)共识诊断,包括至少三位来自呼吸科、放射科、风湿科和病理科的专家,基于HRCT、肺功能检测和靶向血清自身抗体谱的综合评估。ILD队列包含22例特发性肺纤维化(IPF)、175例结缔组织病相关间质性肺病(CTD-ILD)和4例其他亚型。非ILD对照组选自同期接受CT检查的患者,包括106例无ILD的结缔组织病(CTD)患者和296例其他肺部疾病患者(慢性阻塞性肺病219例、哮喘40例、肺水肿37例)。所有对照组均经CT和呼吸科医师独立验证无ILD。血液样本均在同期门诊或住院期间采集。
此外,我们从其他两个院区收集288名患者数据进行外部验证。纳入标准包括:临床资料完整、血常规和血脂数据齐全、年龄超过50岁。排除标准为:活动性感染、并发恶性肿瘤或严重血液系统疾病、正在服用降脂药物。基线临床特征包括人口统计学信息(年龄、性别)、合并症、HRCT结果及标准外周血检测结果。分析参数涵盖血常规参数(白细胞计数及分类、红细胞指标、血小板测量)和血脂代谢标志物(甘油三酯TG、总胆固醇CHOL、高密度脂蛋白胆固醇HDL-C、低密度脂蛋白胆固醇LDL-C)。所有血液数据均在ILD诊断后7天内采集,以确保反映早期炎症和代谢状态。
我们计算了以下衍生血液学指数:中性粒细胞/淋巴细胞比值(NLR)、衍生中性粒细胞/淋巴细胞比值(dNLR)、单核细胞/淋巴细胞比值(MLR)、中性粒细胞-单核细胞/淋巴细胞比值(NMLR)、全身炎症反应指数(SIRI)、全身免疫炎症指数(SII)、中性粒细胞/高密度脂蛋白胆固醇比值(NHR)、淋巴细胞/高密度脂蛋白胆固醇比值(LHR)、单核细胞/高密度脂蛋白胆固醇比值(MHR)、血小板/高密度脂蛋白胆固醇比值(PHR)和非高密度脂蛋白/高密度脂蛋白胆固醇比值(NHHR)。具体计算公式为:NLR = 中性粒细胞计数(109/L)/淋巴细胞计数(109/L);dNLR = 中性粒细胞计数(109/L)/(白细胞计数-淋巴细胞计数)(109/L);MLR = 单核细胞计数(109/L)/淋巴细胞计数(109/L);NMLR = (单核细胞计数 + 中性粒细胞计数)(109/L)/淋巴细胞计数(109/L);SIRI = 中性粒细胞计数(109/L)×单核细胞计数(109/L)/淋巴细胞计数(109/L);SII = 血小板计数(109/L)×中性粒细胞计数(109/L)/淋巴细胞计数(109/L);NHR = 中性粒细胞计数(109/L)/HDL胆固醇(mmol/L);LHR = 淋巴细胞计数(109/L)/HDL胆固醇(mmol/L);MHR = 单核细胞计数(109/L)/HDL胆固醇(mmol/L);PHR = 血小板计数(109/L)/HDL胆固醇(mmol/L);NHHR = [总胆固醇(mmol/L)– HDL胆固醇(mmol/L)]/HDL胆固醇(mmol/L)。根据HRCT结果,将603名患者分为间质性肺病组和正常对照组。
统计分析采用Beckman Colter DxAI平台进行。使用最小绝对收缩与选择算子(LASSO)回归识别与ILD相关的因素。我们评估了八种机器学习模型(包括XGBoost、逻辑回归和LightGBM),通过校准曲线、敏感性、特异性、准确率、预测值和曲线下面积(AUC)进行性能评估。随机留出15.0%的样本作为测试集,对剩余85%进行2折交叉验证(每折50%训练,50%验证)。验证集AUC达到0.915±0.034。最终模型在测试集中AUC为0.885±0.028,准确率为0.868,从而确定最优机器学习模型。所选模型随后在独立外部测试队列中进行验证。
使用SPSS Modeler(版本16.0)和R(版本4.2.3)进行统计分析。连续数据采用t检验(正态分布)或Wilcoxon检验(非正态分布);分类数据采用卡方检验。LASSO回归分析用于识别ILD预测因子,并通过受试者工作特征(ROC)曲线评估其预测性能。统计显著性阈值设为P < 0.05。
3 结果
3.1 基线特征
603名患者的基线特征显示,201名(33.3%)被诊断为间质性肺病,其中女性92名(45.8%),男性109名(54.2%)。对照组402名患者(66.7%),包括女性174名(43.3%),男性228名(56.7%)。年龄(P = 0.623)、性别(P = 0.622)、单核细胞百分比(MO%,P = 0.214)、嗜碱性粒细胞计数(BA,P = 0.111)、血小板计数(PLT,P = 0.832)和血小板分布宽度(PDW,P = 0.053)在组间无显著差异。其余所有测量参数均显示统计学显著差异(P < 0.05)。
3.2 识别与间质性肺病相关的特征因素
通过LASSO回归分析,本研究确定了16个与间质性肺病风险相关的显著生物标志物,包括中性粒细胞百分比(NE%)、淋巴细胞百分比(LY%)等14个血液学和生化参数。通过ROC分析计算这些因素的AUC值,范围从0.565到0.793,其中中性粒细胞/高密度脂蛋白胆固醇比值(NHR)预测价值最高(AUC = 0.793),嗜酸性粒细胞计数(EO)最低(AUC = 0.568)。
3.3 机器学习算法进行特征识别
采用LassoCV、SVMREFCV和Boruta三种算法筛选生物标志物, Venn图显示三种算法结果交集共有六个重叠的生物标志物:中性粒细胞百分比(NE%)、淋巴细胞百分比(LY%)、单核细胞百分比(MO%)、血红蛋白(HGB)、LHR和NHR。
3.4 最优模型识别
随机森林模型在八种评估模型中表现出最优预测准确性,验证阶段和测试阶段的AUC值分别为0.868和0.885。校准曲线分析和决策曲线分析进一步证实了模型的稳健性和临床适用性。
3.5 随机森林模型分析
测试队列的AUC值与验证队列相当,显示模型拟合适当,无过拟合。模型在测试队列中的准确率、敏感性和特异性均超过70%。校准曲线显示实际概率与预测概率高度一致,决策曲线分析确认了模型的显著临床效用。
混淆矩阵结果显示模型在不同数据集中性能一致:训练集敏感性74.3%,特异性97.7%;测试集敏感性70.6%,特异性96.5%。SHAP值分析展示了所有协变量预测间质性肺病概率的贡献。
3.6 随机森林模型的外部验证
使用来自两个额外医疗中心的288名患者独立外部验证队列评估模型,模型AUC为0.849,决策曲线分析显示具有显著临床效用。
3.7 在线预测平台
基于上述分析,我们开发了一个在线预测平台,帮助初级保健临床医生评估有疑似症状患者的间质性肺病风险。用户可输入六个关键血液生物标志物(NE%、LY%、MO%、HGB、LHR、NHR)来估算疾病概率。
4 讨论
间质性肺病(ILD)是一组影响肺间质 through 炎症和纤维化的异质性疾病,病因涉及环境暴露、遗传因素和自身免疫机制。虽然临床表现多样,但大多数ILD患者经历进行性呼吸困难、干咳和肺功能下降,晚期可能导致呼吸衰竭甚至致命结局。尽管高分辨率计算机断层扫描(HRCT)仍是ILD诊断的金标准,但在早期疾病检测中存在显著挑战,资源有限地区尤其如此。
本研究分析了浙江省中医药大学附属医院(包括湖滨院区和其他两个院区)的891份患者记录,旨在识别ILD相关血液生物标志物并开发机器学习预测模型。通过LASSO回归和多种机器学习算法,我们筛选出关键指标:中性粒细胞百分比(NE%)、淋巴细胞百分比(LY%)、单核细胞百分比(MO%)、血红蛋白(HGB)、NHR和LHR。随机森林模型在内部和外部验证中均表现优异(准确率:86.8%,AUC:0.885),成为最优诊断关联模型。这些发现为临床医生提供了一种利用常规血液检查可靠标记ILD存在的机器学习工具。
本研究开创性地将多种血液衍生生物标志物与机器学习算法相结合,实现ILD的早期风险预测和诊断。我们的特征选择过程通过LASSO回归揭示了六个临床显著指标:NE%、LY%、MO%、HGB、NHR和LHR。虽然部分参数已被单独研究,但它们的组合应用代表了一种新方法,尤其是NHR和LHR比值在ILD评估中的创新使用。
白细胞计数,特别是中性粒细胞水平,与ILD发展密切相关。研究表明,中性粒细胞通过释放蛋白水解酶MMP-9和NETs促进纤维化。作为先天免疫系统的一部分,单核细胞可能通过分化为肺巨噬细胞参与ILD发病机制。研究已识别循环杂交TLR4M2单核细胞作为系统性硬化症相关间质性肺病(SSc-ILD)中进行性肺纤维化的潜在生物标志物。
血红蛋白作为关键的氧运输蛋白,在ILD患者中可能因肺泡通气与弥散功能受损而水平降低。SLE-ILD患者的血红蛋白水平显著低于非ILD对照,低血红蛋白水平是独立风险因素。这种血液学模式也见于其他结缔组织病相关ILD。
除脂质代谢作用外,高密度脂蛋白(HDL)还具有抗炎、抗氧化和抗纤维化特性。新证据揭示其与ILD发病、进展和预后的显著关联。低HDL-C是类风湿关节炎相关间质性肺病(RA-ILD)的独立风险因素,而高水平似乎具有保护作用。功能标志物PON1活性降低与内皮损伤和糖尿病相关间质性肺病(DM-ILD)风险增加相关。
新型炎症-代谢指标LHR和NHR整合了单核细胞/中性粒细胞(炎症标志物)与HDL-C(抗炎/抗氧化标志物)的比值,反映了炎症过程与修复机制之间的失衡。这些指标已在心血管疾病、败血症、牙周炎和抑郁症中证明具有预后价值。
值得注意的是,NE%、LY%、MO%、HGB、NHR和LHR的AUC值分别为0.752、0.704、0.603、0.741、0.793和0.567,而我们的模型AUC达到0.864,表明模型既提升了个体参数的预测性能,又显示出更优效能。与Qin等人的研究相比,我们的工作不仅验证了常规血液学参数在ILD中的重要性,还识别了新型衍生参数的显著作用,且机器学习模型显著提高了预测准确性。特别值得一提的是,本研究首创了在线预测工具的開發,为初级保健临床医生提供了宝贵的诊断支持。
我们的发现对临床实践具有重要启示和指导意义。首先,机器学习模型能更准确识别高风险ILD患者,促进早期干预以改善结局。其次,本研究识别的血液生物标志物为ILD病理机制提供了新见解,尤其是LHR和NHR的发现,提示脂质代谢和炎症反应在ILD中的潜在作用。这些发现既优化了ILD诊断流程,也为未来治疗策略提示了新靶点。此外,我们的在线预测工具的广泛采用将增强初级保健对ILD的诊断水平,减少误诊,创造社会效益。
本研究存在若干局限性。首先,尽管使用了两个中心的数据,样本量仍相对较小,可能限制结果的普适性。其次,回顾性设计可能引入选择偏倚和信息偏倚。第三,模型性能依赖于数据质量和特征选择,尽管采用了多种机器学习方法。第四,本研究队列以CTD-ILD为主(87%),因此模型在其他ILD表型(如IPF、HP、结节病等)中的泛化能力尚未验证。后续研究将纳入更大规模CTD-ILD样本构建纯队列训练集,系统评估模型性能提升,并进一步验证该专用工具在临床决策中的增量价值。最后,我们的在线预测工具需经额外验证才能投入临床使用。
5 结论
本研究采用LASSO回归方法识别出与间质性肺病相关的关键生物标志物,包括中性粒细胞百分比(NE%)、淋巴细胞百分比(LY%)、单核细胞百分比(MO%)、血红蛋白(HGB)、LHR和NHR。通过评估八种不同机器学习模型,随机森林(RF)模型表现出最优性能,显示出卓越的预测准确性和临床实用性。模型在内部和外部验证中均表现优异,表明具有显著的临床应用潜力。此外,我们开发的基于网络的预测工具为初级保健医师提供了易于使用的风险评估方法。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号