一种用于改进美国本土(2000–2023年)每日PM2.5浓度估算的特征级集成框架

《Environmental Modelling & Software》:A feature-level ensemble framework for improving daily PM 2.5 estimation across the contiguous United States (2000–2023)

【字体: 时间:2025年10月15日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  准确估算PM2.5地表浓度对空气质量管理和公共卫生至关重要。本研究提出一种新型特征级集成框架,整合了日历编码与物理派生时间特征(如7/30/90/365天滚动平均和变化率),通过多XGBoost模型训练实现互补污染动力学的捕捉。实验表明,集成模型在空间交叉验证(R2提升0.06)、历史回溯(R2+0.08)和未来预测(R2+0.07)中均优于单一特征模型,RMSE降低至7.31μg/m3,验证了该方法在时空泛化、长期监测及政策制定中的有效性。

  PM2.5 是一种细颗粒物,其直径小于等于 2.5 微米,对人类健康和环境有着深远的影响。它被广泛认为是空气污染中最具危害性的成分之一,与心血管疾病、呼吸系统疾病、认知功能障碍以及过早死亡密切相关。由于其来源多样,包括交通运输、工业排放、农业活动以及自然因素如野火和尘暴,PM2.5 的浓度在不同地区和不同时间段内存在显著差异。因此,准确地估算 PM2.5 的地表浓度对于空气质量管理、公众健康保护以及相关政策制定具有重要意义。

近年来,随着科技的发展,PM2.5 的建模方法也取得了显著进步。早期的研究主要依赖于地面监测站点的数据,虽然这些方法能够提供精确的时间序列信息,但空间覆盖范围有限。为了克服这一局限,后续的研究结合了卫星遥感数据、气象再分析数据以及土地利用信息,从而提高了模型的空间分辨率。这些数据的融合使得 PM2.5 的估算更加全面,有助于理解不同区域的污染特征。此外,人工智能技术的应用,如随机森林、梯度提升和神经网络,进一步增强了模型对 PM2.5 与环境驱动因素之间非线性关系的捕捉能力。

然而,传统的 PM2.5 模型在处理时间序列数据时,通常依赖于日历变量,如年份、月份或一年中的第几天。这些变量虽然能够反映季节性变化和政策调整,但缺乏物理意义,且在面对气象变化和长期暴露时,其泛化能力较弱。为了提高模型的准确性和稳定性,许多研究采用了集成方法,如袋外法、提升法和堆叠法。这些方法通过结合多个算法,利用相同的特征集来减少模型的方差,从而提高预测的可靠性。然而,经验表明,集成方法的效果不仅取决于算法的多样性,还与特征的多样性密切相关。因此,构建基于不同特征集的集成模型,能够更全面地捕捉系统的行为。

基于这一认识,本研究提出了一种基于特征层面的集成框架,用于 PM2.5 的估算。该框架不同于传统的集成方法,强调在特征层面引入多样性,通过使用多种时间特征配置来提升模型的性能。与仅依赖日历编码的传统方法不同,本研究结合了日历变量和从再分析 PM2.5 数据中提取的具有物理意义的时间特征。这些时间特征包括在回顾窗口(7、30、90 和 365 天)内的滚动平均值和时间梯度,能够反映长期趋势和短期波动。通过整合这些互补的时间特征,集成模型能够捕捉多种污染动态,从而在空间和时间变化的情况下实现更高的稳健性。

本研究的目标是介绍并验证这一基于特征层面的集成策略,用于每日 PM2.5 的估算。同时,系统评估其在不同场景下的泛化能力,包括空间交叉验证、历史回溯和未来预测。此外,还展示了该方法在长期暴露评估和政策相关空气质量管理中的应用潜力。通过阐明方法上的创新及其实际意义,本研究推动了基于集成的 PM2.5 建模方法的发展,并为公共卫生和环境政策提供了新的思路。

本研究的重点区域是美国的连续 48 个州,这些州具有多样的地理、气候和排放特征。PM2.5 的浓度在这些地区内存在显著差异,这主要归因于工业活动、人口密度、植被覆盖以及自然事件如野火和尘暴的影响。东部州通常受到城市和工业排放的影响较大,而西部州则更易受到野火的影响。因此,研究区域的多样性为 PM2.5 的估算提供了丰富的背景,有助于探索不同环境条件下污染的变化规律。

为了评估 PM2.5 的估算效果,本研究还对气溶胶光学厚度(AOD)的重建进行了分析。图 3 比较了原始 MERRA-2 AOD 数据与重建后的 AOD 数据与 AERONET Level 2.0 观测数据之间的对比。结果显示,MERRA-2 AOD 数据与观测数据之间的相关性为 0.6095,均方根误差为 0.0911,表明存在系统性低估,特别是在高气溶胶负荷条件下。相比之下,重建后的 AOD 数据在相关性和准确性方面都有所提高,相关性达到 0.6745,均方根误差降至 0.0889。重建后的 AOD 数据的回归斜率更为陡峭,为 0.78,表明其对 PM2.5 的敏感性更高,偏差更小。这些结果表明,通过改进 AOD 的重建方法,能够更准确地估算 PM2.5 的浓度,为后续的空气质量评估提供可靠的数据支持。

在讨论部分,本研究指出,PM2.5 估算的改进并非来自于优化单一的时间特征集,而是通过整合不同时间特征配置下的模型预测结果。单独基于日历编码或单一物理时间特征的模型只能带来有限的提升,而本研究提出的基于特征层面的集成方法则能够持续提高模型的准确性和泛化能力。通过引入具有物理意义的时间特征,如滚动平均值和时间梯度,模型不仅能够捕捉 PM2.5 的短期变化,还能反映长期趋势,从而更全面地理解污染的动态变化。这种集成方法在面对空间和时间变化时表现出更高的鲁棒性,为不同应用场景下的 PM2.5 估算提供了更可靠的工具。

本研究的结论表明,提出的新框架能够有效地整合多尺度的物理时间特征,并通过特征层面的集成平均策略提升 PM2.5 的估算效果。该框架通过结合多个模型,利用不同的时间特征组合,实现了在多种验证设置下的准确性和泛化能力的提升。在空间交叉验证中,R2 值提高了 0.06,在历史回溯中 R2 值提高了 0.08,在未来预测中 R2 值提高了 0.07。这些结果表明,该框架不仅能够提高 PM2.5 的估算精度,还能增强其在不同时间尺度下的适用性,为长期暴露评估和政策相关空气质量管理提供了新的方法。

本研究的作者贡献声明显示,所有作者在研究的不同阶段都发挥了重要作用。Yu Ding 负责撰写、编辑、可视化、验证、监督、软件开发、项目管理、方法论、调查和资金获取。Jiaxin Dong 负责撰写、编辑、可视化、验证、资源整理、形式分析和概念设计。Mengfan Teng 负责撰写、编辑和可视化,同时参与方法论的设计。Shiyao Meng 负责可视化和验证,同时在监督和指导方面有所贡献。Jie Yang 负责撰写和编辑,同时参与数据验证和项目管理。Siwei Li 负责撰写和编辑,同时在数据验证和项目管理方面有所贡献。所有作者在研究过程中都密切合作,共同推动了研究的完成。

在软件和数据可用性方面,本研究的数据和代码(基于 Python 3.7)已在 Zenodo 网站上公开,读者可以访问相关链接获取研究资料。这些数据和代码的公开不仅有助于验证研究结果,还能促进后续研究的开展,为学术界和政策制定者提供更多的支持。

在撰写过程中,作者使用了 ChatGPT-4o 来提高文章的可读性。使用该工具后,作者对内容进行了必要的审查和编辑,并对文章内容承担全部责任。这一声明表明,作者在使用人工智能辅助技术的同时,仍然保持了对研究内容的独立性和责任感。

最后,作者声明他们没有已知的财务利益或个人关系可能影响本研究结果。这一声明表明,研究的公正性和客观性得到了保障,所有结论均基于科学研究的严谨性。通过这些努力,本研究不仅在方法上有所创新,也在实际应用中展现了重要价值,为改善空气质量管理和提升公众健康水平提供了新的思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号