基于MEMD-L-SHADE-Transformer混合模型的中国城市PM2.5时空预测与健康风险评估研究

《Ecotoxicology and Environmental Safety》:Development of a decomposition-optimization-transformer hybrid model for spatiotemporal forecasting of PM2.5 air pollution in Chinese cities: A case study

【字体: 时间:2025年10月15日 来源:Ecotoxicology and Environmental Safety 6.1

编辑推荐:

  本研究针对当前空气污染物(尤其是PM2.5、PM10、NO2、CO、O3)预测模型多局限于单一污染物、难以捕捉复杂非线性相互作用的问题,提出了一种新型MEMD-L-SHADE-Transformer混合框架。该模型融合了多元经验模态分解(MEMD)、基于Lévy收缩的自适应差分进化(L-SHADE)算法和Transformer架构,实现了对多种污染物的高精度同步预测。研究在北京、广州、上海和深圳四个中国主要城市进行了验证,结果显示模型预测性能优异(例如,北京PM2.5预测R2达0.98,RMSE为3.04 μg/m3),并展现出强大的时空分析能力和健康风险(AQI)评估潜力。该研究为城市空气质量管理和公共健康保护提供了全面、可扩展的解决方案,具有重要的环境与健康意义。

  
随着全球工业化和城市化进程的飞速发展,空气污染,特别是细颗粒物PM2.5、可吸入颗粒物PM10、二氧化氮NO2、一氧化碳CO和臭氧O3等污染物,已成为威胁公众健康和生态环境的严峻挑战。据世界卫生组织报告,每年约有700万人因环境空气污染暴露而死亡,儿童、老年人及呼吸系统疾病患者是受影响最严重的群体。精确预测这些污染物的浓度,是实施有效空气质量管理和采取前瞻性公共卫生措施的关键一步。然而,现有的预测模型大多聚焦于PM2.5单一污染物,对于其他关键污染物的预测关注有限;且广泛使用的长短期记忆网络(LSTM)、门控循环单元(GRU)等模型在处理多变量依赖关系方面能力有限,难以有效模拟污染物与气象因素之间复杂的非线性相互作用。为了克服这些难题,一项发表在《Ecotoxicology and Environmental Safety》上的研究,提出了一种创新的混合模型框架。
为了应对上述挑战,研究人员开发了一种名为MEMD-L-SHADE-Transformer的新型框架。该研究选取了北京、广州、上海和深圳这四个具有不同地理和气象特征的中国主要城市作为案例,收集了从2023年7月31日至2024年7月31日为期一年的每日空气质量(包括PM2.5、PM10、NO2、SO2、CO、O3)和气象数据(包括温度、湿度、降水、气压、云量、风速、风向)。研究首先通过因子分析和SHAP(Shapley Additive Explanations)值分析确定了影响PM2.5的关键特征变量,如PM10、NO2、CO、温度、湿度、风速等。随后,利用多元经验模态分解(Multivariate Empirical Mode Decomposition, MEMD)将多变量时间序列数据分解为多个本征模态函数(Intrinsic Mode Functions, IMFs),以更好地捕捉数据中的短期波动和长期趋势。接着,采用基于Lévy收缩的自适应差分进化(L-SHADE)算法对Transformer模型的关键超参数(如层数、注意力头数、嵌入维度、学习率、批次大小、训练轮数)进行优化。最后,利用优化后的Transformer模型(集成了时序自注意力机制Temporal Self-Attention, TSA)进行污染物浓度预测,并采用留一交叉验证(Walk-forward cross-validation)确保模型的泛化能力。此外,研究还利用北京12个监测站的数据进行了时空分析,并基于PM2.5预测结果计算了空气质量指数(AQI),进而评估了对敏感人群的健康风险。
4.1. PM2.5的预测
研究结果显示,MEMD-L-SHADE-Transformer模型在四个城市的PM2.5预测中均表现出卓越的性能。在北京,该模型的确定系数R2达到0.98,均方根误差RMSE为3.04 μg/m3,平均绝对误差MAE为1.96 μg/m3,显著优于LSTM、BiGRU、XGBR(Extreme Gradient Boosting Regressor)、CNN-LSTM、ST-GCN(Spatial-Temporal Graph Convolutional Network)等基准模型。在广州、上海和深圳,模型同样取得了高预测精度,R2分别在0.96-0.98之间,展现了模型对不同城市环境和污染特征的强大适应能力。预测值与实际值的高度吻合表明该模型能够有效捕捉PM2.5浓度的时空变化规律。
4.2. 其他污染物的预测
除了PM2.5,该模型还成功应用于预测PM10、NO2、CO和O3等其他关键污染物。在北京的案例中,模型对这些污染物的预测结果与实际观测值高度一致,证明了其多污染物同步预测能力的通用性和有效性。这对于全面评估空气质量和制定综合污染控制策略具有重要意义。
4.3. 稳定性分析
通过五折留一交叉验证对模型稳定性进行评估,结果表明MEMD-L-SHADE-Transformer模型在不同时间段的训练和验证集上均保持了稳定的高性能,预测误差波动较小,证明了其良好的泛化能力和可靠性,适用于长期空气质量预测。
4.4. PM2.5浓度的时空分析
利用北京12个监测站的数据,研究进行了深入的时空分析。首先,模型对每个站点进行了时间序列预测。然后,采用反距离权重插值法将各站点的预测结果生成北京市连续的PM2.5浓度空间分布图。热图可视化显示,模型能够清晰揭示PM2.5浓度在北京市内的空间异质性,例如市中心区域通常浓度较高,并能够展示连续多日污染物的时空动态变化。
4.5. AQI预测与健康启示
研究进一步将预测的PM2.5浓度转换为空气质量指数,并将其分类为“优”(0-50)、“良”(51-100)、“对敏感人群不健康”(101-150)和“有害”(151+)等健康风险等级。通过对北京12个监测站AQI值的时序预测,模型能够识别出空气污染对敏感人群(如儿童、老人、呼吸系统疾病患者)构成健康风险的关键时段。这为公共卫生部门发布预警信息、指导公众采取防护措施(如减少户外活动、使用空气净化器)提供了科学依据,有助于降低污染暴露带来的健康风险。
本研究成功开发并验证了一种名为MEMD-L-SHADE-Transformer的新型混合模型,用于多污染物空气质量的精确预测。该模型的核心优势在于整合了MEMD对复杂时间序列的分解能力、L-SHADE算法高效的超参数优化能力以及Transformer架构对长期时序依赖关系的强大捕捉能力。模型在中国四个典型城市(北京、广州、上海、深圳)的PM2.5及其他污染物(PM10, NO2, CO, O3)预测中均表现出色,预测精度显著高于传统模型。此外,研究还展示了模型在时空分析和健康风险(AQI)评估方面的应用潜力。这项研究的意义在于,它为解决当前多污染物预测的难题提供了一个全面、稳健且可扩展的解决方案,不仅为城市空气质量精细化管理提供了强大的技术工具,其与空气质量指数和健康风险等级的关联,也使其在公共健康保护、流行病学研究和环境政策制定方面具有重要的应用价值,有望成为应对城市空气污染挑战的有力武器。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号