基于ERA5再分析数据的机器学习气象数据重建

《Results in Engineering》:Machine Learning for Reconstructing Meteorological Data Using ERA5

【字体: 时间:2026年06月14日 来源:Results in Engineering 7.9

编辑推荐:

  本研究提出了一种基于极端随机树(Extra Trees)机器学习算法的框架,利用ERA5再分析数据重建1950年至2025年间464个伊朗天气标准站的长期逐日数据。研究重建了九个气象变量:温度、最高温度、最低温度、露点温度、地面气压、风速、风向、降水量和能见度

  
本研究提出了一种基于极端随机树(Extra Trees)机器学习算法的框架,利用ERA5再分析数据重建1950年至2025年间464个伊朗天气标准站的长期逐日数据。研究重建了九个气象变量:温度、最高温度、最低温度、露点温度、地面气压、风速、风向、降水量和能见度。重建精度在空间上和参数间存在差异。温度相关变量实现了高保真度重建,R2高达0.99,均方根误差(RMSE)低至0.63°C,尤其在伊朗中部和东南部表现突出。露点温度和地面气压也表现出良好的性能(RMSE分别约为0.90°C和0.41 hPa)。相比之下,降水量和能见度的重建面临更大挑战,RMSE分别高达871.27 mm和9741.01 m,特别是在西北部及西部山区,凸显了利用全球再分析数据捕捉小尺度过程的困难。风速和风向的精度呈现空间变异性,受复杂地形影响显著。重建数据集填补了关键的数据空白,为气候趋势分析、农业规划、水资源管理和可再生能源评估提供了可靠的数据基础。在误差较大区域,偏差校正或本地观测不可或缺。总体而言,该研究证明了机器学习在克服历史数据局限性方面的有效性,并为伊朗基于证据的气候适应策略奠定了坚实基础。
**研究背景与问题提出**

气象数据是气候学、水文学、农业及生态研究的核心要素,对理解天气相关现象及预测未来变化具有至关重要的作用。然而,获取完整且连续的气象观测序列长期面临诸多困难,包括站点故障、测量误差以及区域覆盖不足等问题。数据缺失或部分缺失会降低建模与统计评估的精度,进而影响宏观战略规划决策。例如,不完整的温度或降水记录可能导致农业种植模式判断失误,而对极端天气事件(如洪水和风暴)的预报能力不足则可能因信息缺失而导致生命财产损失加剧。此外,气候变化动态研究高度依赖气象数据的质量与完整性,数据空白可能造成趋势估计不可靠,从而阻碍有效的气候政策制定。

伊朗国家天气标准站网络自1980年代以来逐步扩展,但长期连续记录仍然有限,站点迁移、仪器变更及观测方法差异导致历史数据存在不一致性和不确定性。以往研究往往被迫仅使用记录最长、最完整的站点,而排除了大量存在数据空白或时间序列较短的站点,造成研究覆盖范围的局限。在此背景下,如何利用现代数据驱动方法重建历史气象数据、填补数据空白,成为亟需解决的关键科学问题。

**研究开展与核心结论**

Kaviani Rad等研究人员针对伊朗464个天气标准站,开展了基于ERA5再分析数据的气象参数重建研究,时间跨度覆盖1950年至2025年。研究采用极端随机树(Extra Trees)机器学习算法,独立对每个站点的逐日数据进行建模与重建。研究结果显示,模型性能在空间分布和参数类型上存在显著差异。温度相关变量(温度、最高温度、最低温度)重建精度极高,R2可达0.99,RMSE低至0.63°C,在伊朗中部和东南部地区表现尤为出色。露点温度(RMSE≈0.90°C)和地面气压(RMSE≈0.41 hPa)同样展现了strong性能。然而,降水量和能见度的重建面临显著挑战,RMSE分别达到871.27 mm和9741.01 m,在西北部及西部山区误差尤为突出。风速和风向的重建精度受复杂地形影响呈现明显的空间变异性。

该研究的重要意义在于:首次实现了伊朗全国范围大规模站点长期气象数据的统一重建,为气候趋势分析、农业规划、水资源管理和可再生能源评估提供了高质量、连续的基准数据集。研究成果发表于《Results in Engineering》,为数据匮乏地区的气象数据重建提供了可推广的方法论框架。

**关键技术方法**

研究采用的核心技术路线包括:数据来源方面,以伊朗气象组织(IMO)运行的464个天气标准站观测数据为目标变量,以ERA5-Land再分析数据为预测因子,包括2米温度、露点温度、地表温度、地面气压、总降水量、地表净太阳辐射、10米风速u/v分量等。模型构建方面,采用极端随机树(Extra Trees)回归算法,辅以随机搜索交叉验证(RandomizedSearchCV)进行超参数优化,使用TimeSeriesSplit时间序列交叉验证策略保持时序完整性。模型评估采用R2、均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)等多维指标。此外,基于重建的温度和露点数据,利用Magnus公式计算饱和水汽压和实际水汽压,进而推导相对湿度和水汽压。

**研究结果**

**特征重要性分析**

研究人员以阿巴丹(ABADAN)站为例分析了各输入变量对不同气象参数预测的贡献度。对于温度及其极值预测,"温度[°C]"和"地表温度[°C]"是最显著的特征,体现了温度测量本身的内在一致性和稳定性;地面气压有一定贡献,而风向、风速和降水量影响甚微。露点温度预测的主要贡献来自"露点温度[°C]"和"温度[°C]",符合气温与湿度关系的物理认知。风速和风向预测中,其历史值自身至关重要,同时存在明显的相互依赖关系;地面净太阳辐射和地面气压对风速有适度贡献,风向还受温度轻微影响。地面气压预测主要依赖其自身历史值,温度变量有一定辅助作用。降水量预测则呈现最为复杂的模式:历史总降水量最为关键,但地面净太阳辐射(低辐射指示云覆盖和潜在降水)和风向上的显著贡献表明天气系统水汽输送的重要性;此外,露点温度和风速也对降水预测有重要贡献,凸显了水汽条件和大气动力学的关键作用。时间特征(月份、年积日)在各预测中重要性普遍较低,说明季节性效应已通过其他物理参数间接传递。

**站点性能极端差异**

表3展示了各参数预测最优和最差站点的RMSE对比。温度数据在南部和东南部站点表现优异:格什姆岛(QESHM_ISLAND)温度RMSE仅0.63°C,拉尔(LAR)最高温度RMSE=1.04°C,尼克沙赫尔(NIKSHAHR)最低温度RMSE=1.27°C。阿米尔阿巴德港(BANDARE_AMIRABAD)露点RMSE=0.90°C,拉瓦尔(RAVAR)风速RMSE=0.48 m/s,帕西扬(PARSIYAN)地面气压RMSE=0.41 hPa,奥尔祖伊耶(ORZOEIYEH)风向RMSE=20.27°,伊斯法罕工业站(SANATI_ESFAHAN)降水量RMSE=0.33 mm,这些站点可作为高质量重建数据的代表。

相反,部分站点呈现显著高误差:伊斯法罕工业站在所有温度参数上均为最差,提示存在需要深入调查的局地因素;吉兰德(JIRANDEH)地面气压RMSE高达275.39 hPa,达雷沙赫尔(DARREHSHAHR)降水量RMSE=871.27 mm,贾万鲁德(JAVANRUD)能见度RMSE=9741.01 m,这些极端误差可能源于输入数据异常、区域气候复杂性或模型对独特条件适应不足。

**空间分布特征**

图4展示的性能指标空间分布图揭示了以下规律:温度、最高温度、最低温度在伊朗中部和东南部广泛区域呈现高R2(绿色至浅黄色)和低误差(浅色),露点温度和地面气压在关键区域同样表现良好,这些区域的数据可较可靠地用于气候和气象应用。相反,西北部、西部及部分中部和东部山区出现明显的红色高误差斑点,伴随低R2(深紫色)和极高MSE、RMSE、MAE值。降水量在全国多数地区均构成最大挑战,能见度在西部和西北部误差显著,风速和风向则呈现良好区域与高误差区域并存的格局,反映了地形复杂性对模型的敏感影响。部分R2图中的白色区域提示数据不足、传感器覆盖欠缺或模型无法产出有效输出的情况,有待进一步研究。

**讨论**

研究结果表明,温度测量的高精度可归因于该参数本身的固有稳定性及其清晰的季节性和日变化周期,模型能够有效学习这些模式。相反,降水量和能见度的较差表现源于多重因素:降水具有显著的局地性,时空变异剧烈,全球再分析模型的空间分辨率限制使其难以准确表征小尺度降水现象;同时,降水观测本身存在较大不确定性,风致损失、降水相态(尤其固态降水)、雨量器设计差异及站点条件可导致显著的测量偏差——无屏蔽雨量器平均低估实际降水34%,即有屏蔽装置仍存在24%的捕获损失,冬季和多风环境尤为严重。能见度受局地湿度、雾、沙尘和空气污染等因素影响,气候模型未必能精确捕捉这些要素。地形对误差模式的影响不容忽视:伊朗西北部和西部的 mountainous and rugged terrain 往往伴随更高误差率,复杂地形显著影响气流模式和气象参数分布。

本研究亦存在若干局限:依赖可用观测数据进行模型验证,而站点质量和空间分布存在变异,数据匮乏或复杂区域可能导致性能评估不确定性;观测数据集本身存在显著差异,再分析数据的模型偏差和数据同化局限可能无法完全表征所有大气细节,尤其在降水、风等复杂多变量现象及高海拔或异质性区域;点误差指标可能无法完全捕捉模型性能全貌,尤其对于降水等高度变异现象,需采用更全面多元的评估策略。

**研究结论**

本研究利用基于ERA5再分析数据训练的极端随机树(Extra Trees)机器学习算法,为1950年至2025年期间伊朗天气标准站的气象数据重建提供了全面框架。研究结果表明,数据驱动方法在解决地面观测记录不完整和不一致这一长期挑战方面具有重要潜力,这对伊朗的气候研究、农业规划和水资源管理意义重大。研究发现,模型性能在空间分布和参数维度上存在显著差异:温度相关变量(包括温度、最高温度和最低温度)展现出极高精度,R2高达0.99,RMSE低至0.63°C,尤其在伊朗中部和东南部地区;露点温度和地面气压也表现强劲。重建数据集提供了可靠的连续时间序列,可有效增强模型表现良好区域的观测数据。另一方面,降水量和能见度重建面临显著挑战,在多个站点呈现更高误差,尤其在西北部和西部山区。风速和风向性能呈现变异性,地形复杂性显著影响模型精度。尽管存在当前局限,这些局限同时也为后续通过局地模型校准和方法优化实现针对性改进提供了重要机遇。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号