基于血清溴化阻燃剂与机器学习的可解释性哮喘预测模型构建及全国人群验证

《Clinical and Experimental Medicine》:Development of an explainable machine learning asthma prediction model using serum brominated flame retardants in a national population

【字体: 时间:2025年10月26日 来源:Clinical and Experimental Medicine 3.5

编辑推荐:

  语 本研究针对成人哮喘早期预警难题,创新性整合NHANES大样本数据与四种机器学习算法(LightGBM、XGBoost、随机森林、神经网络),联合SHAP可解释性分析,构建了以血清溴化阻燃剂(BFRs)为核心特征的哮喘预测模型。结果显示XGBoost模型预测效能最优(AUC=0.814),并识别出PBDE47、PBDE28等5种关键BFRs及11项临床特征,首次揭示BFRs混合物暴露与成人哮喘的关联。研究成果为哮喘风险分层、早期干预及环境暴露致病机制研究提供新范式。

  
哮喘作为一种全球高发的慢性呼吸系统疾病,近年来患病率持续攀升,据2025年全球哮喘倡议(GINA)报告,全球约有3亿患者,每日死亡人数高达千人。尽管医疗技术进步使哮喘住院率和死亡率有所下降,但其导致的活动受限、睡眠障碍及焦虑抑郁等后遗症仍严重影响患者生活质量。传统研究多集中于遗传因素和常见过敏原,然而环境污染物尤其是化学合成物质的致病作用尚未被充分揭示。溴化阻燃剂(Brominated Flame Retardants, BFRs)作为广泛应用于家具、电子产品中的工业化合物,可通过空气和灰尘长期暴露于人体,动物实验表明其可能通过干扰免疫系统功能诱发气道炎症,但针对成人哮喘的流行病学证据仍属空白。
为突破传统逻辑回归模型在捕捉复杂非线性关系时的局限,北京中医药大学潘鑫团队联合中日友好医院等机构,利用美国国家健康与营养调查(NHANES)1999-2023年数据,开展了一项基于机器学习的大规模哮喘预测研究。该研究首次将血清BFRs代谢物与混合暴露 profiles 纳入预测体系,通过对比LightGBM、XGBoost、随机森林和神经网络四种算法,结合SHAP(SHapley Additive exPlanations)可解释性技术,构建了兼具高精度与透明度的哮喘风险预测模型,相关成果发表于《Clinical and Experimental Medicine》。
关键技术方法
研究纳入NHANES数据库中9,948名成人数据,涵盖11项人口学特征和8种血清BFRs(如PBDE47、PBB153等)。通过多重插补(MICE)处理缺失值,采用合成少数类过采样技术(SMOTE)平衡样本,并运用弹性网络正则化(Elastic Net)、Boruta算法和递归特征消除(RFE)筛选关键变量。最终通过五折交叉验证优化超参数,以AUC等9项指标评估模型性能,并借助SHAP量化特征贡献度。
研究结果
1. 基线特征与BFRs分布差异
哮喘组与对照组在年龄、性别、BMI、家族史等11项特征上均存在显著差异(p<0.05)。血清BFRs中,PBDE28和PBB153浓度在两组间呈现统计学差异(p<0.05),提示其潜在致病关联。
2. 特征筛选与模型优化
通过三重特征选择方法锁定16个核心变量,包括5种BFRs(PBDE47、PBDE28、PBDE154、PBDE153、PBB153)及11项临床指标。XGBoost模型表现最优,测试集AUC达0.814,显著高于逻辑回归(AUC=0.708),其灵敏度(0.738)与特异度(0.731)均衡。
3. 可解释性分析揭示关键驱动因素
SHAP全局重要性排序显示,年龄、BMI、哮喘家族史为前三大贡献因子,5种BFRs均进入重要性榜单。局部解释案例进一步验证了特征交互作用,例如高龄、高PBDE47暴露与家族史协同可显著提升哮喘风险。
4. 在线工具开发与临床转化
团队部署了基于XGBoost的交互式网络应用(https://niuwenquan.shinyapps.io/asthmapredictor/),用户输入血清BFRs浓度及临床特征即可实时获取哮喘风险概率及SHAP分解图,助力个体化预防。
结论与意义
本研究通过机器学习首次证实血清BFRs混合物暴露与成人哮喘的关联,突破传统研究仅关注单一污染物的局限。XGBoost模型的高效能与SHAP提供的生物学解释性,为环境流行病学提供了“黑箱”算法透明化的范本。所识别的PBDE47等关键BFRs为后续毒理学机制研究(如氧化应激、线粒体功能紊乱)指明方向,而在线预测工具则直接赋能临床实践,实现从群体风险预警到个体化防控的跨越。尽管横断面设计难以确立因果关系,且未纳入其他环境污染物(如重金属、PFAS),但E值分析表明未测量混杂需极强影响方可推翻现有结论。未来需通过前瞻性队列与多组学整合进一步验证BFRs的致病通路,推动哮喘防治向精准环境医学迈进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号