利用人工智能改进多变量波浪预测:结合LSTM和随机森林模型,采用窗口处理和平滑技术

《Ocean Modelling》:Improving multi-variable wave forecasting with AI: Integrating LSTM and random forest, using a window and flatten technique

【字体: 时间:2025年10月11日 来源:Ocean Modelling 2.9

编辑推荐:

  海浪多参数预测模型研究:基于LSTM和随机森林的窗口-平坦化方法在西班牙瓦伦西亚地中海海域的应用,验证了LSTM在波向预测中的优势(R2=0.98)和随机森林在波高预测中的高效性(MAPE=5.82%)。提出结合时间序列和非时间序列特性的混合建模策略,创新性地采用窗口化数据重构技术提升复杂海况下的预测精度,为跨海域扩展和长期预报提供理论支撑。

  波浪预测对于海岸工程和海洋工程至关重要,因为海况直接影响海洋基础设施的设计与运行、可再生能源系统以及海上安全。尽管大多数研究集中在通过日益复杂的模型预测显著波高(Hs),但其他关键变量如波周期(Tp)和波向(Dir)往往被忽视,尽管它们在全面描述海况方面同样重要。本研究通过引入人工智能(AI)模型——长短期记忆网络(LSTM)和随机森林(RF)——来预测Hs、Tp和Dir。同时,研究团队提出了一种新颖的窗口和展平技术,将时间序列数据重新构造为适合机器学习的格式,从而提升模型在Tp和Dir预测中的表现。LSTM和RF模型在地中海地区的多种波浪条件下进行了测试,结果显示LSTM在Dir预测中普遍优于RF,但RF在Hs预测和短期Tp预测中表现出令人意外的出色表现。这为开发结合顺序和非顺序方法的混合模型提供了新的可能性,这些模型可能在准确性和鲁棒性方面超越传统的时间序列到时间序列方法。

本研究还强调了准确建模Tp的挑战以及在不同能量条件下评估模型性能的重要性。观察到模型对测试场景具有显著的敏感性,这突显了在数据集选择和模型验证时需要格外谨慎。这些发现为扩展波浪预测工具至更具能量的环境(如大西洋)以及推动基于AI的混合预测框架提供了基础。研究团队指出,随着气候变化的影响,未来研究应进一步探索如何在这些条件下实现更准确的预测。

在方法论部分,研究团队详细介绍了所采用的数据来源和研究区域。研究区域位于西班牙东南部,具体在瓦伦西亚,其港口是西班牙最重要的港口之一,而该地区的浮标提供了长期连续的数据记录。瓦伦西亚所在的区域预计会受到气候变化的显著影响,如洪水事件增多、热浪更频繁以及极端天气条件加剧,这些因素使得瓦伦西亚成为研究波浪条件的焦点地区。瓦伦西亚的波浪气候主要由风浪驱动,局部风事件如“Levante”和“Mistral”风在波浪生成中起重要作用。由于地中海相对较短的风程,涌浪事件较少且通常持续时间较短,因此本地生成的风浪是该地区波浪模式的主要组成部分。

研究团队利用瓦伦西亚浮标的历史数据进行建模,这些数据来源于西班牙国家港口数据库。数据集包含从2005年9月至2024年7月的每小时记录,共计167,970个数据样本。其中80%用于模型训练,20%用于验证。为了评估模型在未见数据上的表现,最终的150小时记录被保留用于测试。数据集包括波浪特性、温度、压力、海平面和风参数的测量值。在数据预处理过程中,波浪高度低于0.05米或波浪周期短于0.1秒的数据被视为无效或不可靠,并被替换为NaN值。对于时间序列中的缺失数据,采用插值方法进行填补。对于时间间隔小于或等于4小时的缺失数据,使用线性插值以确保数据集的连续性;而对于超过4小时的缺失,仅凭插值难以保证准确性,因此研究团队采用了空间信息驱动的外推方法,结合了瓦伦西亚附近两个浮标——塔拉戈纳和卡沃德帕洛斯的数据,以提高数据的完整性。

在特征工程方面,研究团队进行了一项敏感性分析,以确定对模型性能影响最大的变量。分析采用了试错方法,逐步排除对模型提升不明显或引入噪声的变量。最终,从最初的19个原始变量中筛选出11个最具代表性的变量,包括日期(t)、显著波高(Hs)、峰值波周期(Tp)、波向(Dir)、风速(Ws)、风向(Wd)、气温(aT)、气压(aP)、海平面(SL)、海面温度(SST)和气象潮汐(MT)。这些变量能够全面反映影响波浪动态的物理过程。此外,研究团队还引入了两个衍生变量,以捕捉这些物理过程之间的相互作用。衍生变量包括波浪能量(P)、海平面变化(SLC)、风浪(WW)、气海温度(AST)和风温相互作用(WT)。这些变量通过综合考虑波浪和气象因素之间的关系,有助于提高模型的预测能力。

在AI模型的选择和应用方面,研究团队采用了LSTM和RF两种模型。LSTM模型因其能够处理长时序依赖性而被广泛用于波浪预测。LSTM通过引入遗忘门、输入门和输出门等机制,使得模型能够在不同的时间尺度上选择性地存储和检索信息,从而更好地适应波浪预测任务。相比之下,RF模型虽然不是专门为时间序列任务设计的,但在Hs预测和短期Tp预测中表现出色。研究团队还提出了一种新颖的窗口和展平方法,将时间窗口内的数据记录整合为单一的展平特征向量,以提高模型对Tp和Dir的预测能力。这一方法在模型训练过程中被采用,并在不同的测试条件下评估其效果。

在结果部分,研究团队展示了LSTM和RF模型在预测Hs、Tp和Dir方面的表现。LSTM在Hs预测中表现出色,其性能在不同的测试条件下保持稳定。相比之下,RF模型在低能量条件下的表现更为优异,但在高能量条件下,其准确性显著下降。在Tp预测方面,两种模型的表现均受到挑战,尤其是在长期预测和高能量条件下。然而,当采用6小时更新和窗口展平方法时,Tp预测的准确性得到显著提升。对于波向预测,LSTM模型在大部分情况下表现良好,但在高能量条件下则有所下降,而RF模型在波向预测中表现不佳,往往收敛于固定值,无法准确捕捉方向变化。这些结果表明,模型的性能在不同海况条件下存在显著差异,强调了在模型评估过程中选择多样化的测试数据的重要性。

讨论部分指出,研究团队在低能量、本地驱动的海域(如地中海)中采用了窗口展平方法,这表明该方法在特定环境下具有良好的适用性。然而,在更具能量的海域或涌浪主导的区域,这种方法可能需要更高频率的数据同化以捕捉更复杂的动态变化。此外,研究团队还指出,当前模型尚未经过高能量条件的测试,因此其适用范围主要集中在中等能量、季节性典型的场景。为了提高模型的泛化能力,未来的研究应考虑在多种能量条件下进行训练和测试。同时,研究团队建议探索将LSTM和RF模型相结合的混合方法,以利用两者的优势,提高预测性能和模型的鲁棒性。

研究还指出,波浪周期(Tp)的建模比显著波高(Hs)更具挑战性,这主要归因于Tp对多种波浪生成机制的敏感性,尤其是风浪和远程生成的涌浪共存的情况。这些因素导致Tp在时间和空间上表现出高度的变异性。因此,研究团队建议未来的工作应探索谱分离技术,结合复合或多输入模型,以更好地捕捉波浪周期变化背后的物理过程。此外,研究团队还建议开发能够同时预测Hs、Tp和Dir的多输出模型,以提高预测的准确性,特别是在处理Tp等复杂变量时。

最后,研究团队总结了本研究的主要结论。窗口展平方法在波浪预测中展现出良好的潜力,特别是在处理Tp和波向时。该方法将时间序列数据转换为向量化的输入窗口,使得非顺序算法如RF能够提取有意义的时序特征,从而扩展了适用于时间序列预测的机器学习模型范围。同时,这种方法也为开发结合传统时间序列模型(如LSTM)和非顺序算法的混合建模策略提供了可能。在本研究中,窗口展平方法被证明在Tp和波向预测中具有显著优势,而LSTM在Hs预测中表现稳定。研究团队建议在模型开发过程中同时测试这两种方法,以确定哪种方法最适合特定变量或数据集。此外,研究团队指出,未来的研究应优先考虑开发和评估能够涵盖从低能量到高能量海况的建模策略,以确保模型能够准确预测复杂多变的波浪气候。这不仅有助于应对气候变化带来的挑战,还能提高对海洋环境的预测能力,从而更好地支持沿海基础设施规划、可再生能源开发和海上安全决策。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号