编辑推荐:
慢性支气管炎(CB)作为慢性阻塞性肺疾病(COPD)核心前驱,防控意义重大。传统模型难解析重金属暴露与 CB 的非线性作用。本研究基于 NHANES 数据,构建 10 种 ML 模型,发现 CatBoost 模型(AUC=0.805)最优,尿镉(OR=1.53)、血镉(OR=1.36)为独立风险因子,为高危人群筛查提供新工具。
慢性呼吸系统疾病正成为全球公共健康的巨大挑战。据数据显示,2019 年全球慢性呼吸系统疾病(CRDs)病例达 7760 万,约 400 万人因此失去生命,其中慢性阻塞性肺疾病(COPD)占据主导地位。慢性支气管炎(CB)作为 COPD 的核心前驱表型,其早期识别与干预对于减轻全球疾病负担至关重要。然而,传统的线性回归模型在捕捉重金属暴露与慢性支气管炎这类复杂疾病之间的非线性相互作用时困难重重,严重限制了现有风险评估框架的临床应用。在此背景下,机器学习(ML)技术凭借其处理大规模、复杂多样数据的能力,为解决这一难题提供了新的思路。
为了探索重金属暴露与慢性支气管炎风险之间的关联,哈尔滨医科大学附属第二医院的研究人员开展了相关研究。他们基于 2005-2015 年国家健康与营养检查调查(NHANES)的全国代表性样本,构建了首个整合暴露组学数据的重金属暴露 - 慢性支气管炎风险预测模型,并对其进行了深入分析。该研究成果发表在《BMC Pulmonary Medicine》上,为慢性支气管炎的防控提供了重要的科学依据。
研究人员主要采用了以下关键技术方法:首先,运用加权 logistic 回归分析 14 种血液和尿液重金属与慢性支气管炎的关联;接着,借助 Boruta 算法筛选特征变量,并构建了包括 logistic 回归(LR)、支持向量机(SVM)、CatBoost 等在内的 10 种机器学习模型;然后,通过准确率、特异性、敏感性和受试者工作特征曲线下面积(AUC)这四项评估指标选取最优模型;最后,利用 Shapley 加性解释(SHAP)对最佳模型进行可视化解释。研究数据来源于 NHANES,该调查每两年进行一次,收集了包括人口统计信息、体格检查、实验室检查和问卷调查等多方面的数据,所有参与者均提供了书面知情同意,研究也获得了国家卫生统计中心研究伦理审查委员会的批准。
基线特征与重金属暴露关联分析
研究纳入了 2005-2015 年期间的 7493 名参与者,其中 199 名为慢性支气管炎患者。基线特征分析表明,与对照组相比,慢性支气管炎患者中女性比例更高、年龄更大,吸烟者比例以及糖尿病、高血压和肿瘤的患病率也更高。同时,慢性支气管炎患者的尿镉、钴、铅和铀浓度以及血镉浓度显著升高,而尿肌酐浓度和血汞浓度则显著降低。
重金属暴露与慢性支气管炎风险的相关性
加权 logistic 回归分析显示,在未调整任何混杂因素时,尿镉(OR=2.31,95% CI=1.33-4.02)、血镉(OR=1.95,95% CI=1.62-2.35)和血铅(OR=1.07,95% CI=1.02-1.12)浓度均与慢性支气管炎风险显著相关。在调整所有潜在混杂因素后,尿镉(OR=1.53,95% CI=1.17-1.98)和血镉(OR=1.36,95% CI=1.13-1.65)浓度仍与慢性支气管炎的患病率显著相关,且随着尿镉浓度的增加,慢性支气管炎的患病风险显著升高,表明镉暴露与慢性支气管炎密切相关,是其风险因素之一。
机器学习模型评估与选择
对 10 种机器学习模型的性能进行综合评估后发现,KNN 模型特异性最高,但敏感性仅为 0.085,实际应用价值有限;CatBoost 模型在多个关键指标上表现均衡且出色,AUC 值最高(0.805),分类性能优异;LightGBM 和 Logistic 模型敏感性较高但特异性较低;NeuralNetwork 模型各项指标表现较为平衡;RandomForest 模型整体表现较差;SVM、GBM、Adaboost 等模型识别阳性患者的能力较差,敏感性低。综合来看,CatBoost 模型是最佳模型。
变量相关性与 SHAP 可视化分析
变量相关性热图分析显示,吸烟状态与血镉浓度呈强正相关(相关系数为 0.54),部分重金属之间也存在显著的正相关,提示某些重金属暴露可能存在协同效应。SHAP 分析对 CatBoost 模型进行可视化解释,结果表明吸烟状态、血镉浓度和性别是预测慢性支气管炎风险的最重要特征变量。吸烟、血镉浓度升高以及女性均与慢性支气管炎风险增加相关,这些因素是潜在的慢性支气管炎风险因素。
研究结论与意义
本研究成功构建了首个具有 SHAP 可视化功能的慢性支气管炎风险预测机器学习模型,该模型基于重金属暴露数据,具有良好的预测性能。研究发现镉暴露是慢性支气管炎的重要风险因素,吸烟状态和性别对模型预测贡献显著。这一研究结果为将环境污染物纳入诊断模型提供了依据,有助于实现疾病的早期管理和预防。同时,研究提出的整合基础人口统计信息、病史、个人史以及环境和生物污染物数据构建预测诊断模型的新思路,不仅适用于高环境暴露人群的疾病风险预测,也有助于实现疾病的早期预防和健康管理,对公共卫生的健康发展具有重要意义。此外,研究还为职业暴露人群的健康监测和干预提供了方向,如加强工业场所镉水平控制、将血镉监测纳入职业健康监测等。不过,研究也存在一定局限性,如依赖问卷定义慢性支气管炎可能存在 recall bias,单一的血液或尿液重金属浓度测量不足以准确评估长期暴露水平,且模型基于 NHANES 数据库,缺乏其他地区数据支持和外部验证等,未来需要进一步研究来完善。