编辑推荐:
为解决现有洪水数据集不适用于机器学习(ML)的问题,研究人员构建 FloodCastBench 数据集,有效支持 ML 洪水预报。
洪水肆虐,精准预报迫在眉睫
洪水,犹如大自然释放的猛兽,频繁在全球各地掀起灾难的风暴。它无情地吞噬着人们的生命,冲毁基础设施,给人类社会带来了沉重的打击。在过去,洪水造成的损失不计其数,无数家庭因此支离破碎,经济发展也受到严重阻碍。面对如此严峻的形势,精准的洪水预报成为了人们抵御洪水灾害的关键防线。它能够提前为政府决策层、应急响应人员和易受灾群众传递重要信息,让人们有足够的时间做好防范准备,从而大大降低洪水带来的风险。
然而,随着时代的发展,传统的洪水预报手段逐渐暴露出不足。虽然现有的一些洪水数据集能对洪水事件进行多方面描述,涵盖洪水发生地点、造成的人员伤亡、淹没范围等信息,但却无法满足机器学习(ML)的需求。机器学习需要高时空分辨率、多尺度多场景以及包含多源输入的动态过程数据,而这些正是现有数据集所缺乏的。在这样的困境下,开展新的研究、构建更适用的数据集变得刻不容缓。
来自德国慕尼黑工业大学(Technical University of Munich)的研究人员勇挑重担,积极投身于这一极具挑战性的研究领域。他们精心构建了 FloodCastBench 数据集,并建立了神经洪水预报的基础模型基准。这一研究成果意义非凡,为洪水建模和预报开辟了新的道路,相关论文发表在《Scientific Data》上。
多管齐下,解锁研究关键技术
为了打造 FloodCastBench 数据集,研究人员采用了一系列先进的技术方法。首先是数据采集,他们广泛收集多种数据,像地形信息(利用分辨率为 30m 的哥白尼数字高程模型 FABDEM)、土地利用和覆盖数据(从 Sentinel - 2 土地利用 / 土地覆盖数据集中提取)、降雨数据(源于全球降水测量综合多卫星反演 GPM - IMERG 最终降水产品)以及洪水测量数据(包括基于合成孔径雷达 SAR 的洪水地图和实地测量的洪水轮廓)。
在数据处理阶段,针对洪水过程动力学,研究人员运用传统的有限差分求解器来求解二维深度平均浅水方程(SWEs)。在这个过程中,他们细致地确定模型的初始条件、边界条件,合理选择曼宁摩擦系数,并且巧妙地运用 Python 实现数值求解。最终,成功生成了具有 30m×30m 空间分辨率和 300 秒时间分辨率的洪水动态数据集。
精挑细选,确定研究区域
为了全面把握全球洪水分布情况,研究人员利用达特茅斯洪水观测站数据集和全球灾害警报与协调系统,精心编制了 1985 年至 2023 年的全球洪水发生地图。在这张地图上,他们挑选出了四个大规模洪水事件作为研究区域。
2022 年巴基斯坦洪水,在夏季季风季节,暴雨如注,引发了灾难性的洪水,几乎影响了该国三分之一的人口,造成了巨大的人员伤亡和经济损失。研究聚焦在受影响严重的南部省份,模拟了 14 天的洪水过程。2015 年英国洪水,位于英格兰西北部的伊甸河流域,地势陡峭,频繁遭受洪水侵袭。2015 年 12 月的洪水破坏力极强,研究区域涵盖约 135.5 平方公里,模拟时间为 3 天。2022 年澳大利亚洪水,东部地区在 2022 年 2 月开始遭遇洪水,随后暴雨加剧。研究区域包括 Ballina 地区,模拟时段为 2022 年 2 月 20 日至 3 月 2 日。2019 年莫桑比克洪水,热带气旋 “伊代” 来袭,狂风暴雨致使河流湖泊泛滥。研究区域位于莫桑比克的贝拉地区,模拟时间从 2019 年 3 月 14 日至 3 月 20 日。
严格校准,打造优质数据集
FloodCastBench 数据集的构建过程严谨有序,主要包括数据准备、数据生成和数据校准三个阶段。在数据准备阶段,研究人员收集各种输入数据来初始化水动力模型,同时采集洪水测量数据用于模型校准。数据生成阶段,运用有限差分法求解 SWEs 方程,模拟洪水的时空动态过程。数据校准阶段至关重要,通过调整水动力模型的参数,使模拟结果与洪水测量数据高度契合。
最终生成的 FloodCastBench 数据集内容丰富,包含不同分辨率的洪水动态结果,适用于低分辨率和高分辨率的洪水预报,还能满足跨区域研究的需求。并且,研究人员通过与洪水测量数据对比,对数据集进行了验证和校准,确保了数据的可靠性。
全面验证,评估数据集效能
为了验证 FloodCastBench 数据集的有效性,研究人员进行了多方面的验证工作。一方面,将数据集的洪水淹没范围与洪水测量数据进行对比,从图中可以直观地看出,在大部分地区,FloodCastBench 数据集的淹没范围与基于 SAR 的洪水地图以及实地测量的洪水轮廓基本吻合。不过,在某些区域,比如莫桑比克和澳大利亚的部分作物地区,存在一定差异,这可能是由于水动力模型未充分考虑作物类型差异以及降雨数据的不确定性。
另一方面,研究人员开展了洪水预报任务,利用 U - Net、Fourier Neural Operator(FNO)、FNO + 等神经网络建立基准。在不同分辨率的洪水预报任务中,对模型的性能进行评估。结果显示,FNO 在捕捉水流动力学方面表现出色,比 U - Net 更精准。而 FNO + 由于融入了更多物理变量,性能更优,在低分辨率和高分辨率洪水预报中,均展现出更低的误差和更高的空间准确性。同时,在跨区域和降尺度洪水预报中,FNO 和 FNO + 也表现卓越,充分验证了 FloodCastBench 数据集在评估相关模型方面的有效性。
突破局限,展望未来发展
研究人员构建的 FloodCastBench 数据集为洪水建模和预报带来了新的突破。它不仅详细记录了洪水动力学数据的获取过程,还为机器学习提供了全面的低分辨率和高分辨率洪水预报数据集。基于该数据集建立的基础模型基准,为不同类型的洪水预报任务提供了重要的评估标准。
不过,这项研究也存在一些局限性。例如,洪水动力学数据的不确定性还需要进一步验证,目前的洪水预报任务受 GPU 内存限制,只能进行 20 个时间步的预测。为了应对这些挑战,研究人员建议使用更大内存的 GPU 或采用序列到序列神经预测方法。未来,研究人员希望 FloodCastBench 数据集能够不断扩充,吸引全球更多研究人员贡献数据,使其覆盖更广泛的洪水事件,成为全球洪水研究的重要基石,助力人类更有效地应对洪水灾害。