使用生成式深度学习模型预测数据稀疏区域内的河流水深

《Journal of Hydro-environment Research》:Predicting river bathymetry in data sparse regions using a generative deep learning model

【字体: 时间:2025年10月31日 来源:Journal of Hydro-environment Research 2.3

编辑推荐:

  河流地形预测中条件生成对抗网络(CGAN)的应用研究。基于可获取的河道宽度、深度、中心线曲率及岸高等参数,构建CGAN模型生成稀少数据区河流横截面地形。实验表明CGAN模型误差(25%)较传统概念模型(45%)显著降低,验证了其在水文模拟中的有效性和泛化能力。

  河床水深数据在水文和水力学研究中具有重要意义,它能够用于沉积物输运、洪水淹没、流域保护、水库管理等高精度模拟。然而,获取河流水深数据的过程通常较为耗时且成本高昂,因此许多河流的水深调查并不全面。此前的研究尝试在测量区域之外预测水深数据,但这些方法所需的输入参数通常有限,甚至难以获取。因此,本研究提出了一种基于数据驱动的模型——生成对抗网络(GAN),以利用可获取的数据作为输入,预测数据稀疏区域的河床水深。GAN作为一种流行的深度学习结构,常用于生成合成数据。本研究开发了一种条件生成对抗网络(CGAN),可以生成具有可获取属性的河道横断面,包括河道宽度、河道深度、中心线曲率和河岸高度。这些关键属性被归一化处理,使模型能够在不同空间尺度的河段上运行。CGAN模型通过八种输入配置和四种训练数据集组合进行测试,以探讨其优势和局限性。研究结果表明,CGAN模型在横断面生成方面具有良好的可行性和通用性。尽管它仅以四种河道属性作为输入,但其在高程上的归一化均方根误差(RMSE*)约为25%,这比之前文献中概念模型的归一化误差低了一半。

河流水深数据描述了河床地形,对理解与模拟河流系统至关重要,特别是在沉积物输运、洪水控制、河流修复、水库管理和拆除水坝等领域(Conner和Tonina,2014;Cook和Merwade,2009;Dey等,2019;Grimaldi等,2018)。虽然许多河流研究关注的是较短的河段,但随着对大规模河流系统水文和水力学模拟的需求增加,特别是洪水预测方面,这种关注正在扩大(Bates等,2017;Sampson等,2015;Schumann等,2013;Wing等,2021;Xu等,2024;Zhao等,2023)。河流水深数据通常通过单波束或多波束船载声呐进行测量。然而,使用声呐进行水深调查的成本和时间都很高,因此在长河段中快速获取水深数据变得不切实际(Dey等,2019;Ghorbanidehno等,2021)。因此,这类数据仅在少数短河段中稀疏可用,无法描述整个河流系统的连续水深,从而限制了其在大规模洪水模拟中的应用。

近年来,随着遥感和激光雷达(LiDAR)技术的进步,一些研究(Bates等,2017;Sampson等,2015;Schumann等,2013;Wing等,2021;Xu等,2024;Zhao等,2023)已经开发出利用地形数据进行大规模洪水模拟的方法。然而,这些方法通常将河流通道简化为基本的几何形状,或依赖于水面之上的体积叠加。Dey等(2022)指出,准确的河流水深数据对于表面径流和地下渗透过程都至关重要。因此,可靠的水深估算方法对于提高大规模水力学模拟的精度是必不可少的。此外,大规模河流水深的代表性描述也可以用于其他研究领域,尤其是在数据收集受限的情况下。

之前的研究提出了在水文模拟中使用河流水深数据的方法,当水深数据不足时,但这些方法存在一些缺点和限制。例如,Grimaldi等(2018)使用遥感图像和经验公式来估算河道宽度、深度和流量面积,以进行有效的洪水淹没模拟。然而,这种方法在准确性和效率方面无法超越拥有充分水深数据的模型。此外,水深数据的应用并不仅限于淹没模拟。概念模型如Merwade(2004)开发的河流通道形态模型(RCMM)和Dey等(2019)提出的系统生成河流网络几何(SPRING)模型,利用β函数的组合生成横断面,但这些模型需要现场测量进行校准。此外,RCMM和SPRING模型在归一化后的预测误差约为50%,仍有改进空间。

另一种生成河流水深的方法涉及使用测得的流速进行逆建模,其中流量和点测量流速被输入到统计或确定性模型中,以估算河流水深(例如,Wilson和OZkan-Haller(2012)和Landon等(2014))。然而,这些逆建模方法有两个主要限制。首先,它们需要更多的计算资源;其次,它们需要全面的流速数据,而这同样难以收集。近年来,一些研究引入了数据驱动的方法,以解决与计算资源和基于物理的水深估算相关的限制。深度学习(DL)模型在预测或重建数据方面展现了显著的能力,这得益于计算性能的提升和数据量的增长(Alom等,2019;Najafabadi等,2015;Zhou等,2024)。因此,DL模型被引入以应对复杂的工程问题,包括水文和水力学问题(Shen和Lawson,2021;Sit等,2020;Tripathy和Mishra,2024)。例如,长短期记忆网络(LSTM)被用于预测水文过程的时间序列(Han和Morrison,2022;Jeong等,2024;Li等,2023;Wang等,2022;Zhou等,2024);卷积神经网络(CNN)被用于水文和土壤属性的空间维度(Deng等,2024;Li等,2022);组合的CNN-LSTM被用于预测复杂的水文过程,如天气和沉积物(Abbas等,2023;Fan等,2023)。

DL模型也被用于与逆水深建模相关的应用。这些包括CNN模型的应用(Dickens和Armstrong,2019)、PCA-DNN(主成分分析-深度神经网络)、SE(监督编码器)和SVE(监督变分编码器)(Forghani等,2021a;Forghani等,2021b;Ghorbanidehno等,2021;Liu等,2024)。这些研究表明,DL模型在准确性和速度方面优于概念模型,但它们仍然需要流速数据,而这可能与水深数据一样难以获得。

除了这些传统的DL模型,由Goodfellow等(2014)提出的生成对抗神经网络(GAN)模型可能成为一种在某些数据稀疏区域预测水深的潜在方法。GAN模型是一种特定的DL结构,广泛用于合成数据,包括文本和图像。GAN模型通过拟合数据集的概率分布来增强与训练数据相似的数据(Mariani等,2018;Tanaka和Aranha,2019)。尽管GAN相关研究项目数量近年来有所增长,但很少应用于水文和水力学领域。例如,Laloy等(2018)应用了一种空间GAN模型,生成合成的2D和3D图像,用于地下水流统计分析,展示了更快的图像生成速度和在有限数据下捕捉统计特征的能力。Ge等(2024)应用GAN来增强滑坡触发因素(如降雨、水库水位和滑坡周期位移)的时间序列,以提高滑坡位移预测的机器学习模型性能。尽管他们的研究显示这种数据增强提高了机器学习模型的性能,但该研究也指出,GAN模型需要专门的超参数调优。

尽管GAN在增强和生成数据方面效果显著,但在用于水深预测时仍需进一步研究,这主要是由于三个关键问题。首先,正如Ge等(2024)所指出的,GAN模型的架构和超参数必须根据具体应用进行仔细调优和设计。其次,为了解决数据不足的问题,模型必须能够通过可获取的数据和属性在不同河流之间进行迁移。在数据可用性受限的情况下,选择具有有意义物理解释的输入参数和数据集对于模型的性能至关重要。本研究旨在通过开发一种条件GAN(CGAN)模型来解决这些问题,该模型在有条件参数的情况下运行,以在输入数据有限的情况下生成用于水力学模拟的合成横断面。具体而言,为了解决上述问题,本研究调查了CGAN模型开发的三个方面。这些包括:(i)模型神经网络架构的设计,(ii)模型在不同河段之间的可行性评估,以及(iii)输入参数和数据集大小对模型的影响。通过这些调查,本研究不仅展示了新CGAN模型在关键参数下的性能,还确定了其应用的局限性和适用范围。

本研究使用的水深数据来自美国的三条河流,包括德克萨斯州的布拉佐斯河一段、阿拉巴马州的汤比格比河,以及明尼苏达州的密西西比河九段(图1和表1)。本研究的目标是生成河流通道的横断面,因此需要从横断面或多波束调查中获取横断面几何形状和属性。汤比格比河的数据以横断面调查形式呈现,而密西西比河的数据则通过多波束调查获取。这些数据提供了关于河流通道的详细信息,包括河道宽度、深度、中心线曲率和河岸高度,为CGAN模型的训练和测试提供了基础。

本研究的方法论包括开发CGAN模型,其流程如图2所示。流程首先从数字高程模型(DEM)和水深数据中提取横断面几何形状(包括河岸和河床)以及河流通道属性。河流通道属性作为CGAN模型的输入参数,而横断面几何形状则用于评估模型的预测结果。预处理后的数据被分为两部分,用于模型的训练和测试。生成器被设计用于生成与训练数据相似的横断面,同时判别器被用来区分真实数据和生成数据。通过这种方式,CGAN模型能够学习并生成具有合理特征的横断面,从而提高水力学模拟的准确性。

本研究的基准测试显示,CGAN模型在多个输入配置和数据集组合中显著优于之前研究中使用的概念模型(Dey等,2019)。表6显示,CGAN模型在不同输入配置和数据集组合下,其归一化均方根误差(RMSE*)和平均绝对误差(MAE*)分别约为25%和20%。这些归一化误差代表了模型预测的高程差异,以最大预测深度的百分比表示。CGAN模型的性能表明,它在大规模水力学模拟中具有显著的优势,能够有效提高模拟的精度和可靠性。

本研究的结论指出,CGAN模型被提出以生成合成横断面,并考察了该方法的多个方面,包括输入参数的影响、归一化处理、训练数据集的选择以及模型结构的优化。CGAN模型的平均误差从之前研究中提出的概念方法的45%降低到了25%左右,显示出显著的改进。这些结果表明,CGAN模型能够有效解决大规模水力学模拟中的数据不足问题,为洪水预测和流域管理提供更精确的工具。此外,CGAN模型的开发不仅提高了模拟的准确性,还为其他研究领域提供了新的方法和思路。

在写作过程中,作者使用了ChatGPT工具来提高语言和写作质量。在使用该服务后,作者对内容的进行了审查和编辑,并对出版物的内容承担全部责任。作者声明他们没有已知的可能影响本研究结果的财务利益或个人关系。本研究得到了美国国家科学基金会(EAR: 1948938)的资助。本研究中的任何意见、发现、结论或建议均代表作者的观点,不一定反映国家科学基金会的立场。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号