空气污染与代谢疾病的 “隐秘联系”:基于机器学习的空间分析新发现

【字体: 时间:2025年03月02日 来源:BMC Public Health 3.5

编辑推荐:

  为探究空气污染物(APs)与代谢疾病(MDs)关系,研究人员用 ASEMD 算法,发现两者空间关联,为防控提供依据。

  在当今社会,随着生活水平的不断提高,各种疾病也悄然 “找上门”。代谢疾病(MDs),像高血压、糖尿病、血脂异常等,就如同隐藏在人们身边的 “健康杀手”。它们不仅影响着人们的日常生活,还对公共健康构成了巨大威胁。目前,虽然大家知道 MDs 受多种因素影响,比如不健康的生活方式、遗传因素等,但环境污染物,尤其是空气污染物(APs)在其中扮演的角色却一直迷雾重重。而且,传统的研究方法在探究 APs 和 MDs 之间复杂关系时,总是显得力不从心,难以全面揭示其中的奥秘。
为了揭开这层神秘的面纱,上海交通大学医学院等机构的研究人员展开了一项极具意义的研究。这项研究成果发表在《BMC Public Health》杂志上。研究人员提出了一种名为 ASEMD(用于暴露组与代谢疾病空间关系分析的算法)的新型机器学习流程,以此来分析中国地级市层面 APs 与 MDs 之间的空间关联。

在研究过程中,研究人员运用了多种关键技术方法。首先,他们使用了中国健康与养老追踪调查(CHARLS)2015 年的数据,以及 2013 - 2015 年的气象数据。然后,通过主成分分析(PCA)、k - 均值聚类、Jaccard 指数计算等方法,对数据进行处理和分析。此外,还运用了 Moran’s I 统计和局部空间自相关指标(LISA)地图来评估空间自相关,使用线性回归(LR)和极端梯度提升(XGBoost)等模型进行预测分析,并借助 Shapley 值来解释模型结果。

研究结果主要有以下几个方面:

  1. APs 和 MDs 的概况:研究发现,在全国范围内,PM10污染较为严重,而 CO 污染相对较轻。在 MDs 中,高血压的全国患病率最高,糖尿病最低。经过年龄和性别调整后,这些疾病的患病率有所下降。
  2. 空间自相关分析:通过计算 Moran’s I 指数和绘制 LISA 地图,研究人员发现所有 APs 和 MDs 都存在显著的空间自相关。其中,APs 中 PM10的空间自相关最为显著,MDs 中血脂异常的空间自相关最为突出。从 LISA 地图来看,糖尿病、高血压和血脂异常在中北部地区呈现出低 - 低(LL)聚类少、高 - 低(HL)聚类多的特点,而南部地区则是高 - 高(HH)聚类少、低 - 高(LH)聚类多。在一些西部地区,糖尿病患病率存在明显的 HH 聚类。
  3. 空间相关性分析:从数值(Jaccard 值)和图像(地理地图)两个方面验证了 APs 和 MDs 之间的空间相关性。在较低阈值(n = 0.6 和 0.65)下,MDs 和 APs 之间存在很强的地理相关性,随着阈值升高,这种相关性逐渐减弱。地图可视化结果显示,MDs 患病率高的城市往往空气污染更严重,中北部城市糖尿病和血脂异常患病率较高,而南部城市较低,部分城市高血压患病率在南北部都较高。
  4. 特定 APs 与 MDs 的关系及模型预测性能:控制 19 个潜在混杂因素后,研究人员利用机器学习模型进行分析。结果表明,不同 APs 能有效预测 MDs 的患病率。其中,PM10与糖尿病的空间相关性最为显著,CO 与血脂异常最为显著,SO2与高血压最为显著。整体上,机器学习模型在预测这三种疾病方面表现良好,XGBoost 模型表现最佳。
  5. 敏感性分析:通过城乡人口分层和 APs 分层进行敏感性分析,结果显示 ASEMD 在两种分层分析中都保持稳健性,XGBoost 模型在两种分层设置下都具有较高的诊断效能。在城乡分层中,血脂异常和高血压的患病率与 APs 在城市人口中的空间关联更强,而糖尿病在农村人口中与 APs 的相关性更大。在污染物分层分析中,发现七种污染物与三种疾病之间都存在稳健的空间相关性,PM10与所有三种疾病的关联最强。

在研究结论和讨论部分,研究人员指出,他们的研究揭示了 APs 与糖尿病、血脂异常和高血压患病率之间存在空间相关性,即使考虑了多种混杂因素,APs 仍能有效预测个体患 MDs 的风险,并确定了特定 APs 与 MDs 之间的显著关联。这一研究结果与以往研究中 APs 与 MDs 及心血管疾病等共病相关的结论相符。同时,研究还强调了 APs 对 MDs 影响的空间异质性,即不同地区 APs 对 MDs 的影响存在差异,这可能与污染物暴露的空间模式以及其他区域因素有关,如饮食、生活方式和社会经济因素等。

与传统流行病学方法相比,ASEMD 流程具有显著优势,它能更详细地分析暴露与疾病之间的空间关联模式,减少混杂因素的影响,降低生态学谬误。然而,该研究也存在一些局限性,比如数据粒度较粗,采用横断面数据采样方法,无法确定因果关系,且可能存在选择偏倚等。

总的来说,这项研究意义重大。它为理解 APs 和 MDs 之间的复杂相互作用提供了一个强大的框架,利用可解释的机器学习模型确定了 MDs 患病率的关键预测因素,增强了研究结果的透明度和可靠性。研究结果支持在空气污染严重地区制定有针对性的、地区特异性的公共卫生策略和干预措施,以减轻空气污染对代谢健康的影响。未来的研究可以进一步完善 ASEMD 流程,整合更精细的数据,如个体层面的污染物暴露和健康记录,并开展纵向研究,以更好地确定因果关系,提高基于环境暴露的疾病风险预测的准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号