利用客观的天气形势分类方法和随机森林模型改进东亚地区的ERA5海面阵风预报

《Geomatics, Natural Hazards and Risk》:Improving ERA5 maritime gust forecasts in East China using objective synoptic weather classification and random forest models

【字体: 时间:2025年10月03日 来源:Geomatics, Natural Hazards and Risk 4.5

编辑推荐:

  风切变|随机森林模型|天气类型分类|ERA5重分析|中国东部沿海|机器学习|海洋风能评估|极端风事件预测

  风速数据对于海上风电资源评估和工程设计至关重要。然而,现有的偏倚校正模型往往难以充分捕捉 ERA5 风暴数据在不同天气条件下的依赖性偏差。为了解决这一问题,本研究采用了一种客观的天气分类方法,对2013年至2022年间中国东部沿海地区的 ERA5 风暴数据进行了分类,并评估其表现。在此基础上,结合随机森林回归算法与天气模式标签,构建了一个基于天气类型的随机森林(WTRF)模型。该模型在2023年的独立测试集上进行了评估,结果显示,ERA5 在九种不同的天气类型中表现出显著的差异性,其中均方根误差(RMSE)的差异最大可达0.9米/秒,相关系数(R)的波动范围达到0.16,而风暴强度等级六的命中率(CSI)的差异超过0.2。WTRF 模型能够有效捕捉天气类型对风暴形成机制的影响差异,相较于未分类的校正方法,其校正 RMSE 减少了12.2%。对于极端风暴事件,WTRF 模型将平均绝对误差(MAE)和平均偏差误差(MBE)降低了1至4米/秒,并提升了 CSI 0.05至0.23。总体而言,WTRF 模型为海上风电资源评估提供了更准确的信息,并增强了对极端风暴事件的预测能力。

研究背景指出,随着海上经济活动的增加,与不同天气系统相关的严重风暴事件对海上经济和海上作业安全构成了日益严重的威胁。风暴是指短时间内风速的突然增加,这种现象可能危及海上航行、影响风力涡轮机的运行稳定性,并对沿海居民构成威胁。近年来,中国近海超过30%的渔船事故都被归因于严重的风暴事件。尽管这些损害无法完全避免,但及时且准确的风暴预警在降低海上风险和确保海上风电稳定运行方面发挥着至关重要的作用。

准确的风暴数据是海上风电资源评估和工程设计的基础。然而,由于海上风暴观测站的稀缺性以及测量数据在时间和空间上的不连续性,数值模型生成的再分析数据集(如 ERA5、JRA-55、NCEP 和 CRA)已成为海上风暴研究的主要替代数据来源。ERA5 再分析数据集(第五代欧洲中期天气预报中心(ECMWF)全球气候大气再分析数据集)因其高时空分辨率和较高的准确性而被广泛用于风速气候分析和风能资源评估。然而,之前的研究发现,虽然 ERA5 风速数据在年际、季节和月尺度上与观测数据在空间分布模式和气候特征上较为一致,但在静态天气条件下,ERA5 风速数据系统性地高估了风暴速度,而在台风、强对流等动态天气系统中则低估了风暴速度。影响近地层风暴速度变化的因素复杂,由于数值模型的系统性偏差、地形变化、地表粗糙度、网格分辨率以及天气系统等因素,ERA5 风暴数据在不同地区和天气条件下的适用性存在显著差异。因此,在将再分析数据用于海上风电资源评估或工程设计之前,必须验证其对海上风暴的模拟能力,并实施偏倚校正模型以减少不确定误差带来的风险。

风暴校正模型可以根据其原理分为物理模型和统计模型。物理模型主要通过区域数值天气预报(NWP)系统对再分析数据集中的大尺度风进行动态降尺度和参数化处理。这些模型由于需要处理复杂的高分辨率地形效应和湍流参数化方案,因此计算资源需求较高。相比之下,经验统计模型使用线性回归方法拟合历史观测和模拟风暴速度,计算资源需求较低,因此在风暴校正研究中被广泛采用。例如,Minola 等人(2021)利用统计回归方法计算了瑞典和挪威的湍流和对流贡献系数,并将其纳入 ERA5 风暴计算过程,这种方法显著提升了 ERA5 风暴产品的性能。然而,尽管这些统计模型计算简单且高效,它们在极端天气事件中往往低估风暴波动特征。这一限制源于风暴形成过程的非线性性质以及极端风暴事件样本数量有限。

近年来,随着机器学习(ML)和人工智能(AI)方法在气候科学中的广泛应用,研究人员开始利用 ML 模型对再分析数据集中的风速产品进行偏差校正。已有研究表明,基于决策树的 ML 模型和深度学习(DL)模型可以有效解决风暴预测中的非线性挑战。当结合高分辨率地形特征和历史气象数据时,这些 ML 模型能够持续增强再分析数据集中风暴波动过程的特征描述。例如,Coburn 和 Pryor(2022)在三个美国机场应用了 ERA5-ANN 方法进行长期风暴概率和强度预测,并报告称 ML 模型在风暴概率和强度预测方面均显著优于传统回归模型。

尽管机器学习方法在解决非线性风暴预测方面表现出巨大潜力,但研究人员发现现有的 ML 模型在季节性表现上存在显著差异,并且对极端风暴事件的系统性低估仍然存在。进一步分析表明,大多数当前的校正方法依赖于静态天气假设或专注于单一天气系统(如台风)。这种局限性主要源于它们在面对复杂且快速演变的天气系统时,无法准确捕捉非静态风暴波动。因此,极端风暴事件被背景波动所掩盖,极大地限制了模型在极端风暴检测和泛化能力上的表现。为了弥补这一研究空白,开发能够区分和适应多种天气背景的风暴校正方法对于提高模型在不同天气系统下对极端风暴事件的预测精度和稳定性至关重要。

本研究的主要目标是建立一个适用于多种天气场景的 ERA5 风暴校正模型,以提升 ERA5 风暴产品在中国东部沿海地区在多种天气系统下的预测性能。为此,我们选择了经济密集且风暴风险较高的中国东部沿海地区作为研究区域,并设定了以下目标:(1)系统评估 ERA5 风暴在不同天气类型下的偏差差异;(2)构建一个基于天气类型的随机森林(WTRF)模型,用于校正海洋区域的 ERA5 风暴,并利用 SHAP 方法分析不同天气背景下影响风暴误差的关键特征;(3)评估 WTRF 模型的性能,并验证其在现实世界中的有效性。本文其余部分的结构如下:第二部分介绍了来自中国东部沿海地区的50个气象站的风暴观测数据和 ERA5 再分析数据;第三部分简要介绍了建模过程和评估方法;第四部分详细描述了研究结果;最后,第五部分提供了总结和结论。

数据来源部分指出,风暴观测数据来自中国气象局(CMA),包括从2013年1月到2023年12月期间,中国东部沿海地区50个地表站的每小时风暴速度和2分钟平均风速时间序列数据。每小时风暴速度代表了在每小时观测期间记录的地面以上10米处的最大3秒风暴风速。所有观测数据均按照 CMA 的标准流程,由训练有素的气象学家进行质量控制和一致性测试,包括以下步骤:(1)排除那些风暴速度低于同时期2分钟平均风速的错误记录;(2)对超出气候极值的疑似异常值进行人工验证,以确保其物理合理性;(3)仅保留那些在11年期间缺失数据比例低于5%的站点。经过筛选后,选择了25个岛屿站点和25个沿海站点的每小时风暴数据。这些站点的空间分布如图1所示。为了更好地描述每个站点的地理背景,计算了每个站点到大陆海岸线的最短直线距离(D),按照 Minola 等人(2021)的方法,利用纬度和经度坐标进行计算。岛屿站点被分配为 D > 0,沿海站点被分配为 D < 0。D 和站点高度均被纳入后续的风暴校正建模过程中。

ERA5 再分析数据集覆盖了从1950年1月至今的全球气候大气再分析数据,提供了每小时数据,空间分辨率为0.25° × 0.25°,涵盖了大量大气、陆地和海洋气候变量。在本研究中,除了10米风暴速度外,我们还收集了2013年至2023年期间的小时大气变量,如海平面气压、不同气压层的经向(U)和纬向(V)风分量以及对流指数。所有 ERA5 变量均通过最近邻插值法与气象站的空间位置进行匹配。这些变量被用作客观天气分类方法的输入数据,并作为训练机器学习算法的气象特征。

方法论部分说明,本研究结合了客观天气分类方法和随机森林(RF)模型,以校正中国东部沿海地区 ERA5 风暴速度在不同天气类型下的偏差。图2展示了整个建模过程的技术框架,包括以下主要步骤:(1)数据收集和预处理,如第二章所述;(2)对中国东部沿海地区的风暴事件进行客观天气分类;(3)RF 模型构建,包括特征选择、超参数调优和基于天气类型(WT)的建模;(4)模型性能评估和分析。本节介绍了各种方法的背景知识、建模过程和性能指标。

本研究采用 T-PCA 方法对 ERA5 数据进行客观天气分类,该方法基于 COST733 客观天气分类软件。T-PCA 方法用于对中国东部沿海地区在2013至2022年间00:00 UTC 时的海平面气压数据进行多变量斜交旋转分解,从而得出10年内的每日天气模式(SWPs)。此外,使用2013至2022年各天气类型中心文件作为参考,计算了2023年每日 ERA5 海平面气压数据与中心文件之间的差异(距离)。将距离最小的天气模式分配为2023年每天的天气类型。

本研究使用 RF 回归模型来校正 ERA5 的10米风暴速度。RF 是一种非参数监督集成学习算法,通过构建和聚合多个决策树的预测结果,提高模型的泛化能力和鲁棒性。在训练过程中,RF 通过自助采样生成不同的训练子集,并在每个树中随机选择特征子集进行节点分割评估。在预测过程中,最终输出是所有决策树预测结果的平均值。这种方法有效地降低了过拟合的风险,同时能够自然地捕捉非线性关系和高维特征之间的相互作用,非常适合本研究中 ERA5 风暴速度的复杂多变量建模。

在本研究中,我们以 ERA5 偏差(即 ERA5 风暴速度与观测风暴速度的差值)为目标变量,开发了一个风暴速度校正模型,结合了天气分类和随机森林算法(以下简称 WTRF)。根据之前关于风暴形成机制和操作性预测实践的研究(Sheridan 2018;Coburn 和 Pryor 2022),我们最初选择了22个物理特征,这些特征反映了在 SWP 分类过程中影响风暴形成的不同动态、对流和地形因素(见表1)。

为了减轻特征之间多重共线性的影响,对这22个变量进行了二次筛选,采用以下标准:(1)与 ERA5 偏差的相关性显著(p ≤ 0.05);(2)所选变量与其他变量之间的绝对相关系数 |R| < 0.7;(3)在高变量相关性的情况下,保留与风暴偏差相关性更强的变量;(4)对前三个步骤筛选出的特征进行 F 检验和多重共线性分析,以确保特征的独立性。

基于客观天气分类和模型特征选择,从不同天气类型中提取了相应的天气类型和特征量作为模型的训练数据集。数据集按年份划分,以保持气候状态的时间连续性:2013至2019年的数据作为训练集,2020至2022年的数据作为测试集,2023年的数据作为独立验证集。

同时,为了确保训练模型的稳健性和泛化能力,我们采用了网格搜索与交叉验证相结合的方法,优化不同天气条件下的 RF 模型超参数。优化的参数包括决策树的数量(n_estimators)、每棵树的最大深度(max_depth)以及叶节点所需的最小样本数(min_samples_leaf)。在参数调优过程中,训练数据集(2013-2019)被划分为五个连续的折,用于交叉验证。第一折使用2013至2014年的数据作为训练子集,2015年的数据作为验证子集。后续折每年扩展训练集(添加下一年的数据),而验证集则向后移动一年(从2016至2019)。参数调优过程基于网格搜索和交叉验证方法重复进行,以 ERA5 的 RMSE 和预测风暴偏差作为模型性能的核心评估指标。当 RMSE 达到最小值并保持稳定时,最终的最优超参数组合被确定(见附录表A2)。

误差和模型性能指标部分提到,我们使用了 RMSE、R、CSI、概率检测(POD)、误报率(FAR)和漏报率(MISS)来评估不同风力等级下模型预测风暴速度的整体性能。通过这些指标,我们可以量化模型在不同风力等级下的表现。在不同天气类型下,ERA5 的 RMSE 范围为1.5至4.5米/秒,相关系数(R)的范围为0.45至0.95。在不同天气类型下,ERA5 的 RMSE 存在显著差异。值得注意的是,在槽底(Type 5)和台风影响(Type 9)下,每个站点的 RMSE 通常比其他天气类型高出0.5米/秒(最高可达1米/秒),而 R 的最大差异为0.16。此外,风暴速度在沿海和岛屿站点的表现也存在差异。沿海站点的 RMSE 通常比岛屿站点高出0.2至0.4米/秒,而 R 在沿海站点上大约高出0.1。这些结果表明,在 ERA5 风暴数据校正中,需要同时考虑天气类型和地理因素。

为了进一步探讨不同天气类型下各特征对风暴偏差的具体影响方向和程度,我们计算了每个样本的 SHAP 值。图9展示了各特征对模型预测风暴误差的边际贡献,每个点代表一个不同的样本。蓝色和紫色点分别表示特征值较低和较高的样本。底部的 x 轴对应每个样本的 SHAP 值,而 y 轴按特征的平均绝对 SHAP 值降序排列。较高的值表示该特征对模型预测风暴误差的影响更大。结果显示,ERA5 风暴速度和地形变量是影响风暴速度误差的主要因素。此外,925百帕 UV 风速(代表动量传输)和对流潜势指数(CAPE 和 TX)对风暴速度误差的贡献在不同天气类型中存在显著差异。这些发现表明,WTRF 模型能够有效捕捉天气类型对风暴形成的不同机制。

独立评估 WTRF 模型的结果显示,WTRF 模型在不同天气类型下显著降低了 ERA5 风暴预测误差,并提升了极端风暴事件的预测能力。具体而言,WTRF 模型在不同天气类型下将 RMSE 减少了0.2至0.9米/秒,并将 R 提高了0.05至0.1。此外,WTRF 模型在预测风力等级为六、八和十的极端风暴事件时,CSI 增加了0.05至0.23,同时平均漏报率降低了0.21。这些结果与2013-2022年期间的评估结果一致,确认了模型的稳健泛化能力。总体而言,WTRF 模型有效降低了 ERA5 风暴预测误差,并在多种天气条件下提升了极端风暴事件的预测性能。

结论部分指出,本研究通过 T-PCA 客观天气分类方法对中国东部沿海地区2013-2022年的天气类型进行了分类。基于此分类,评估了 ERA5 风暴速度在不同天气类型下的表现。此外,还开发了一个基于天气类型的随机森林(WTRF)模型,用于根据分类的天气类型校正 ERA5 风暴速度。研究结果如下:

(1)中国东部沿海地区的天气被分为九种类型。其中,冷空气系统、槽(涡旋)和台风影响类型的极端风暴事件(风力等级大于六)频率为10%至30%,而高压后方类型的频率则低于5%。ERA5 在不同天气类型下对风暴速度和极端风暴事件的预测性能存在显著差异。具体而言,RMSE 差异最大可达0.9米/秒,R 的波动范围为0.16,而风力等级六的 CSI 差异超过0.2。

(2)为了构建不同天气类型下的风暴速度校正模型(WTRF),我们选择了12个代表动态、能量、地形和其他影响因素的特征变量。应用 SHAP 可解释性方法分析了每个变量对模型的贡献。结果显示,ERA5 风暴速度和地形变量是影响风暴速度误差的主要因素。此外,925百帕 UV 风速(代表动量传输)和对流潜势指数(CAPE 和 TX)对风暴速度误差的贡献在不同天气类型中存在显著差异。这些发现表明,WTRF 模型能够有效捕捉天气类型对风暴形成的不同机制。

(3)通过2013-2022年的数据集和2023年的独立测试集验证了 ERA5 风暴速度的性能。WTRF 模型相较于未分类建模方法,其校正精度提高了12.2%。通过 WTRF 校正后的风暴速度在各站点间表现出更窄的 RMSE 分布和更高的 R 一致性。值得注意的是,在极端风事件中,WTRF 模型将 MAE 和 MBE 降低了1至4米/秒,并提升了 CSI 0.05至0.23,同时平均漏报率降低了0.21。总体而言,WTRF 模型为海上风电资源评估提供了更准确的风暴数据支持,并增强了对极端风暴事件的预测能力。

本研究分析了 ERA5 风暴产品在中国东部沿海地区不同天气类型下的性能和误差来源,从而提升了对海上风暴预测的理解。尽管 WTRF 模型的验证仅在中国东部沿海地区进行,考虑到不同天气类型下风暴波动特征的普遍性,我们预期 WTRF 也能提高其他地区再分析数据的风暴预测性能。此外,WTRF 的性能还有进一步提升的潜力,例如通过引入对流系统形成风暴的时间滞后效应,这需要进一步的研究和优化。未来的工作将利用更广泛的观测数据集对模型进行优化,并验证其在不同沿海和岛屿区域的应用性,以提供更精确的风暴数据支持,用于本地化的风能评估。同时,我们将进一步研究模型中识别出的高影响风暴变量的机制作用,以提升对不同天气条件下风暴形成理解和预测能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号