基于传统数据同化和机器学习方法的中国十年气象模拟与优化研究

《Environmental Modelling & Software》:A Ten-Year Meteorological Simulation and Optimization in China Based on Traditional Data Assimilation and Machine Learning Methods

【字体: 时间:2025年09月27日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  气象数据同化与机器学习优化方法在长江三角洲地区的气象模拟研究。采用WRF模型对2014-2023年中国区域气象数据进行十年期模拟,发现温度和风向模拟精度不足。通过3DVAR数据同化、随机森林(RF)和XGBoost机器学习方法进行优化,结果显示XGBoost在风速、温度和风向优化中均表现最佳,3DVAR在温度优化中优于RF和XGBoost,但机器学习方法整体更优。

  气象条件在化学传输模型中扮演着至关重要的角色,它们是预测污染物浓度的关键输入参数,直接影响模拟的准确性。因此,减少这些条件的不确定性对于提升空气质量模型的可靠性具有重要意义。为了生成长期的气象输入数据集,本研究采用WRF(Weather Research and Forecasting)模型对中国的气象条件进行了十年(2014-2023)的模拟,空间分辨率为27公里。尽管WRF在风速模拟方面表现出相对良好的性能,但其在温度和风向方面的准确性仍有待提高。为了进一步优化这些关键变量的模拟效果,本研究选择了长江三角洲地区作为2023年的案例研究,应用了传统的三维变分数据同化方法(3DVAR)和机器学习方法(如随机森林和XGBoost)进行优化。结果表明,对于不符合标准的站点,3DVAR在温度模拟方面优于随机森林和XGBoost,而在风场模拟方面,随机森林和XGBoost则优于3DVAR。在所有评估的方法中,XGBoost在优化性能方面表现最为出色。

近年来,空气污染物的综合控制已成为一个亟需关注的环境问题,对社会和生态系统的健康产生深远影响。化学传输模型(CTMs)被广泛用于通过整合排放清单、气象条件和化学反应机制来预测污染物浓度。在这些输入中,气象条件对于准确模拟污染物的转化和化学反应过程至关重要。许多研究表明,温度、风速、气压、湿度、降水、辐射、行星边界层(PBL)动力学、能见度和云量等气象因素与气溶胶和气体污染物(如臭氧、二氧化硫和氮氧化物)之间存在密切联系。因此,气象场的准确性对于可靠的空气质量建模具有决定性作用。

为了提高模拟精度,常见的方法包括数据同化技术,如WRF数据同化(WRFDA)和机器学习(ML)。传统的数据同化方法主要包括三维变分数据同化(3DVAR)、四维变分数据同化(4DVAR)以及集合卡尔曼滤波(EnKF)。3DVAR和4DVAR的目标是通过最小化目标函数,将观测数据与数值天气预报进行最优融合。然而,由于4DVAR的计算技术更为复杂,其对计算资源的需求远高于3DVAR。EnKF适用于非线性系统,但在集合规模有限的情况下,可能会出现误差估计的不稳定性,从而影响中尺度天气模拟的准确性。近年来,随着机器学习技术的快速发展,其在捕捉输入与输出变量之间的复杂非线性关系方面展现出独特优势,这使得基于机器学习的预测方法在气象模拟领域得到广泛应用。其中,随机森林(RF)在处理数据和模型优化方面具有良好的效果,支持向量机(SVM)和反向传播神经网络(BP)也被广泛应用于气象预测任务。相比之下,极端梯度提升(XGBoost)在大规模数据集上的训练效率更高,并在结构化数据预测任务中表现出色。

在实际应用中,WRFDA依赖于已建立的物理定律,能够通过背景误差协方差补偿观测数据的缺失。然而,背景误差的估计往往存在不确定性,且计算成本较高。相比之下,机器学习方法能够有效捕捉气象变量之间的高度非线性关系,从而实现高效且准确的预测,但它们高度依赖于数据,缺乏物理约束。WRFDA主要通过改进初始条件和物理参数化方案来优化模型性能,而机器学习方法则用于初始场优化、数据驱动预测以及偏差校正。初始场优化能够提高输入条件的准确性,但需要大量的历史观测数据,并受到模型泛化能力的限制。纯粹的数据驱动预测依赖于历史观测数据,缺乏基于物理的约束,但在数据有限的情况下仍能提供有价值的预测。偏差校正对计算需求较低,适用于后处理优化,特别是在模型存在显著系统偏差的情况下,但无法从根本上改变模型中的物理过程。

近年来,中国在区域气象研究方面取得了显著进展,特别是在优化中尺度数值天气预测模型、发展数据同化技术、耦合气象与大气化学过程以及研究极端天气事件等方面。然而,针对中国区域长期气象模拟的系统性研究仍然不足,尽管气象条件在污染物的形成、传输和扩散过程中起着至关重要的作用。为了更好地理解气象与空气质量之间的复杂相互作用,有必要进一步开展对中国区域长期气象条件的系统模拟和分析工作。

本研究旨在通过系统性的方法,提高中国区域大气化学模拟的可靠性,并构建更精确的气象数据集。首先,采用广泛应用的WRF模型,对2014年至2023年的中国气象条件进行模拟,重点关注温度、风速和风向这三项关键变量。随后,对模拟结果进行系统性的评估和分析。为了优化这些变量的模拟效果,本研究选择了长江三角洲地区作为案例研究区域,因为该地区是中国最经济发达、人口密度最高的区域之一,对气象研究具有重要的现实意义。尽管之前的研究已经应用WRF模型对这一地区进行了评估和优化,但仍存在一些局限性,包括长期尺度模拟不足、缺乏与基于机器学习的偏差校正方法的整合,以及过度依赖单一优化策略(如仅调整物理参数化方案)等问题。因此,本研究在2023年针对长江三角洲地区,应用了两种主要技术,涵盖了三种不同的优化方法:基于传统数据同化的3DVAR方法,以及基于机器学习的随机森林和XGBoost方法。通过这些方法,本研究提供了长期的气象模拟数据,为进一步研究中国东部地区空气污染物与气象因素之间的复杂相互作用奠定了科学基础。

在方法部分,本研究采用了WRF模型进行气象条件的模拟,并将模拟结果与模拟域内401个观测站点的实测数据进行对比。基于Liu et al.(2021)和Mohan & Sati(2016)的研究,计算了包括均方根误差(RMSE)、平均偏差误差(MB)、平均绝对误差(ME)和一致性指数(IOA)在内的四种统计指标,用于评估温度、风速和风向的模拟结果。这些指标能够全面反映模拟数据与观测数据之间的差异,为后续的优化提供依据。

在评估结果部分,对2014年至2023年期间,每个观测站点的温度、风速和风向的年度、月度和日度平均值进行了计算。随后,通过箱线图(图6)对这些变量的十年平均模拟值与观测值进行了可视化对比。结果表明,WRF模型在风速模拟方面表现较为理想,但在温度和风向的模拟中准确性较低。总体来看,温度的变化幅度较大,模拟值与观测值之间存在显著差异,特别是在某些季节和区域。相比之下,风速的模拟结果相对稳定,能够较好地反映实际气象条件。风向的模拟则受到多种因素的影响,如地形、城市化程度和季节变化,导致模拟误差较高。

在结论部分,本研究指出,目前对中国区域长期气象模拟的系统性研究仍然相对有限。为了提高大气化学模拟的可靠性,本研究采用了广泛应用的WRF模型,对2014年至2023年的中国气象条件进行了模拟,并对温度、风速和风向这三项关键变量进行了系统性的评估和分析。研究结果揭示了气象条件在不同区域和季节中的显著差异,以及不同优化方法在提升模拟精度方面的有效性。尽管3DVAR在温度模拟方面表现较好,但随机森林和XGBoost在风场模拟方面更具优势。其中,XGBoost在优化性能方面表现最为出色,能够有效减少模拟误差,提高预测的准确性。

此外,本研究还强调了数据同化和机器学习方法在气象模拟中的互补性。传统数据同化方法如3DVAR依赖于物理定律和背景误差协方差,能够在一定程度上提高模型的初始条件和参数化方案的准确性。然而,这些方法在处理高度非线性关系时存在局限性。相比之下,机器学习方法能够捕捉这些复杂关系,从而实现更高效的预测和优化。然而,机器学习方法对数据的依赖性较强,缺乏物理约束,这在一定程度上限制了其应用范围。因此,结合传统数据同化方法和机器学习方法,能够更全面地提升气象模拟的精度。

本研究的实施不仅为大气化学模拟提供了更准确的气象数据支持,还为后续研究提供了科学依据。通过长期的模拟和优化,可以更深入地理解气象条件对污染物形成、传输和扩散的影响机制。同时,优化方法的选择和应用也对模型的准确性产生重要影响。因此,未来的研究需要进一步探索不同优化方法的适用性,并结合多种技术手段,以实现更全面和高效的气象模拟。

在软件和数据可用性方面,本研究采用的WRF模型版本为4.5.2,由美国国家大气研究中心(NCAR)开发。WRF模型的源代码可以在GitHub平台上找到,为研究者提供了便利的访问途径。此外,WRF模型的预处理需要地理和静态数据,这些数据可以从WRF预处理系统(WPS)的静态数据仓库中获取。WRF模型的初始和边界条件则来源于全球预报系统最终分析(GFS-FNL)数据,该数据由美国国家环境预测中心(NCEP)提供。这些数据的获取和使用为WRF模型的运行提供了必要的支持。

在代码可用性方面,本研究中使用的WRF v4.5.2模型的源代码可以通过在线平台获取,为研究者提供了便利的访问途径。这有助于推动气象模拟技术的进一步发展和应用。同时,本研究的数据来源也得到了充分保障,确保了模拟结果的准确性和可靠性。

在致谢部分,本研究得到了南京师范大学科研启动基金的支持,为研究的顺利开展提供了资金保障。同时,感谢Min Xu在行政支持和论文审阅方面的帮助,为研究的完善提供了重要支持。

总之,本研究通过系统的模拟和优化,提高了中国区域长期气象条件的准确性,为大气化学模拟提供了更可靠的数据支持。研究结果表明,不同优化方法在提升模拟精度方面各有优势,其中XGBoost在优化性能方面表现最为出色。未来的研究需要进一步探索这些方法的适用性,并结合多种技术手段,以实现更全面和高效的气象模拟。同时,还需要加强对中国区域长期气象模拟的系统性研究,以更好地理解气象与空气质量之间的复杂相互作用,为环境保护和公共健康提供科学依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号