《Atmosphere》:Deep Learning-Based Multi-Source Precipitation Fusion and Its Utility for Hydrological Simulation
编辑推荐:
本文提出一种结合注意力机制的卷积神经网络-长短期记忆网络(A-CNN-LSTM)模型,对GPM IMERG V07卫星降水产品进行偏差校正,并耦合SWAT模型评估其在水文模拟中的效用。研究表明,针对单一高质量微波产品(如IMERG)的靶向校正策略,优于简单叠加多源同类型卫星数据,能显著提升降水估算精度(如RMSE从87.92降至60.98 m3s?1)和径流模拟性能(NSE从0.71/0.70提升至0.85/0.79),为缺资料山区流域的水文预报提供可靠数据支撑。
1. 引言
高时空分辨率降水信息是洪水预警、水资源调控和分布式水文建模的基础,对于雨量站稀疏的中小山区流域尤为关键。传统雨量站多集中在城镇和交通沿线,难以捕捉上游山区和暴雨中心的降水空间异质性,插值得到的面降水场往往平滑化极端值和空间梯度,导致径流量、洪峰和峰现时间的模拟偏差,增加防洪和调度决策的不确定性。在难以大幅加密雨量站网的情况下,具有连续空间覆盖的卫星和再分析降水产品成为通过区域评估和偏差校正改进流域尺度降水输入的重要手段。
当前广泛使用的卫星降水产品(如TRMM、GSMaP、CHIRPS)和再分析数据集(如ERA5)虽能弥补大中尺度站点稀疏的不足,但各自存在系统性偏差、频率分布扭曲和极端降水表征缺陷。传统统计校正方法(如线性回归、分位数映射、贝叶斯融合等)多依赖预设分布形式或线性假设,对区域条件敏感,难以捕捉复杂地形下的非线性误差结构。深度学习技术的快速发展为多源卫星降水融合和偏差校正开辟了新途径。卷积神经网络(CNN)能提取网格化场的多尺度空间特征,长短期记忆网络(LSTM)擅长表征多时间尺度变异性,二者结合的混合时空架构(如CNN-LSTM、ConvLSTM)在相关性、误差指标和空间模式一致性上普遍优于传统统计方法,并能部分缓解卫星产品误差对水文模拟的影响。进一步引入时空注意力或Transformer架构的深度学习模型增强了对关键信息的响应,已用于降尺度、多源融合和数值模式偏差校正,有助于突出强降水关键期和关键区域,改善复杂地形降水和极端事件的刻画,并增强输入特征重要性的可解释性。
多源融合研究表明,合并多个卫星降水产品可增强空间一致性并改善部分水文指标,但改进幅度强烈依赖于输入产品的质量和误差结构。当产品共享相似观测机制和误差特征时,简单堆叠多个微波数据集往往收益有限,甚至在山区可能产生局部改进与退化混杂的现象。因此,与其追求多源同质微波产品“数量叠加”的边际增益,不如聚焦于以经过广泛区域验证的高质量代表性产品为核心的靶向区域校正和应用导向评估。在现有高分辨率卫星降水产品中,GPM计划的集成多卫星反演(IMERG)是应用最广泛的产品之一。其第七代算法(V07)融合多星座被动微波观测、静止红外亮温数据和雨量站资料,提供0.1°/30分钟的准全球降水估计。广泛的全球和区域评估表明,IMERG能合理再现空间格局和季节演变,对中到大雨的表现通常优于许多传统卫星产品;经过适度区域偏差校正后,其日和月误差通常可在多种气候区和流域尺度上满足水文建模和风险评估的需求。这些特性使IMERG V07具备较高的整体精度和稳健性,可作为代表性的“核心”高分辨率微波降水产品。然而,在典型中小山区流域,基于单一高质量产品、融合异质辅助信息、并系统评估不同雨强等级和径流响应性能的深度学习校正框架仍相对缺乏。
在此背景下,本研究聚焦湘江上游中小山区流域——潞水河流域,以IMERG V07为主要卫星降水产品,引入主要基于红外反演的CHIRPS作为异质辅助源,并纳入ERA5蒸发量和数字高程模型(DEM)数据作为附加预测因子。在多源降水校正基础上,进一步将校正场与SWAT模型耦合,联合评估降水统计性能和水文响应。具体目标包括:(1)开发结合卷积编码、长短期记忆网络和注意力机制的日尺度A-CNN-LSTM校正框架,在统一架构下比较单源IMERG、单源CHIRPS及IMERG+CHIRPS组合输入,阐明输入组合和产品质量对校正性能的影响;(2)利用站点空间交叉验证、分层降水统计和典型暴雨事件指标,评估模型跨空间和雨强等级的泛化能力,重点关注致洪关键情景;(3)从“降水校正–径流响应”链条视角,检验以IMERG为主导、融合异质卫星与再分析信息的深度学习框架在中小山区流域洪水风险评估和水资源管理中的适用性与实效性。
2. 研究区域与数据
2.1. 研究区域概况
潞水河流域位于中国南方湘江中上游东侧,流经湖南浏阳、醴陵和江西萍乡,于湘潭附近汇入湘江,流域面积约2871 km2。流域总体自东向西流,上游以低山和切割丘陵为主,中下游逐渐过渡为缓丘和冲积平原谷地。显著的地形起伏和高度异质的下垫面条件形成了复杂的产汇流过程。
该区域属亚热带季风气候,年均降水量约1500–1700 mm,年内高度集中。4–6月降水主要与锋面系统和中尺度对流事件相关,7–9月常受副热带高压边缘不稳定和台风残余影响,易出现短历时强降水和多峰型洪水事件。历史洪水表明,潞水河流域汇流时间短,洪峰陡涨陡落,对降水时空分布表征精度高度敏感。然而,现有雨量站和水文站网稀疏,多数站点集中于城镇和交通走廊,上游山区和部分源头子流域监测不足,导致传统站点插值降水场难以准确捕捉暴雨中心和地形降水梯度。这些特征使潞水河流域成为检验高分辨率卫星降水产品、多源融合和深度学习校正方法及其水文性能的典型中小流域。
2.2. 数据集
研究采用2011–2022年多源数据集,包括雨量站观测、卫星降水产品、再分析数据和地理空间数据,用于多源降水校正和水文建模。分析时段(2011–2022)选择为日雨量站观测和出口断面流量记录均连续且同时覆盖所有遥感/再分析输入的最长时间跨度,该时段也提供足够样本支持空间交叉验证下的模型训练,并确保SWAT率定验证时强迫数据的时间一致性。
雨量站数据包括流域内及周边8个雨量站的日记录,来源于中国气象局国家气象信息中心和中国气象数据网(CMDC),并辅以省级水文气象业务资料交叉核对,作为评估卫星降水产品精度和深度学习模型训练验证的基准。径流观测为流域出口控制站(大溪潭站)2011–2022年日实测流量,来源于流域水文主管部门业务数据库,用于SWAT模型率定验证及不同降水输入方案下的径流响应对比分析。所有站数据均经过完整性、物理合理性、时间一致性和空间一致性检验,无效记录被剔除,仅保留符合建模要求的有效记录用于后续评估和训练。
卫星降水产品包括:GPM IMERG V07日产品(空间分辨率0.1°×0.1°),作为主要卫星降水数据和深度学习校正目标;CHIRPS日产品(原始分辨率0.05°×0.05°),经双线性插值重采样至0.1°以匹配IMERG网格,用于对比评估和多源融合实验的附加输入。再分析和地理空间数据包括:ERA5日统计(单层)数据,使用UTC+8时间窗口聚合日值,蒸发变量经符号转换(ETERA5= max(?E, 0))为非负蒸发强度代理,作为辅助预测因子;30 m分辨率DEM,用于提取高程、坡度等地形属性,并聚合至0.1°网格尺度,表征地形起伏和潜在地形降水效应,同时为SWAT模型流域和子流域划分提供基础输入。其他数据包括2020年中国土地利用/覆盖变化(LUCC)遥感监测数据集(1 km分辨率)和 Harmonized World Soil Database (HWSD) v1.1中国土壤数据集(约1 km分辨率),分别用于SWAT模型水文响应单元(HRU)定义和土壤参数库构建。
2.3. 数据预处理
为确保多源数据集一致可比,所有数据在模型开发前经过统一预处理。空间上,所有网格数据(IMERG、CHIRPS、ERA5蒸发、DEM)重采样至0.1°×0.1°分辨率,研究区域限定于26.0–30.0° N、112.0–115.0° E的规则网格(30×30像元)。时间上,卫星和再分析数据时间戳转换为北京时(UTC+8),以00:00–24:00为日聚合窗口,所有数据按日对齐,仅保留所有必需数据源均有有效记录的日期用于精度评估和模型训练。
缺失值和异常值处理方面,雨量站和流量序列中的缺失值、负值及明显不合理记录被剔除或标记为无效。卫星降水数据进行物理合理性检查,剔除负值和异常值。ERA5蒸发变量遵循ECMWF通量符号约定,经转换后仅代表蒸发过程。构建深度学习训练样本时,以雨量站位置为空间锚点,提取统一网格中围绕各站的15×15网格窗口内的多源信息(IMERG、CHIRPS、ERA5蒸发、DEM地形属性),表征站点邻域的降水空间结构和下垫面条件。各站日降水观测作为预测目标,与同期子网格特征配对形成监督学习样本。多源输入特征进行归一化或标准化处理,观测降水值保留物理单位以便误差分析和水文解释。数据集划分采用基于站点的八折空间交叉验证方案:每折中一个雨量站作为独立测试站,其余七站样本用于训练,模型参数仅基于训练站拟合,然后在未见过的测试站评估校正性能,以此评估模型在缺资料或无资料地区的潜在适用性。
3. 研究方法
3.1. 多源降水校正概念框架
针对山区流域卫星降水产品存在的量级偏差、空间模式扭曲和强降水表征缺陷问题,本研究以日雨量站观测为参考,结合站点周边空间邻域信息和辅助环境协变量,构建基于深度学习的IMERG日降水偏差校正框架,并设计单源输入校正和多源输入校正两种实验情景,量化多源信息对校正性能的贡献。
为明确实验设计和结果比较,首先定义了各降水方案的构建、命名约定和用途。降水方案分为三类:原始产品(未经本框架处理的原始网格降水产品,如IMERG、CHIRPS)、校正产品(在统一深度学习校正框架内,以单一降水产品为主要输入训练的偏差校正输出)、融合产品(由单一模型产生,该模型以多个降水产品作为并发输入,在特征层进行联合多源表征学习)。本研究的“融合”指模型内多源输入融合,而非简单多产品叠加/平均,也区别于独立的统计融合方法。
校正工作流以日雨量站观测为参考数据,利用各站周边卫星信息的空间分布校正日IMERG降水。数据预处理已将所有数据集统一至0.1°空间分辨率和一致的日时间轴。对于每个雨量站,提取以其所在网格单元为中心的15×15子网格窗口,形成包含IMERG降水和蒸发、地形等辅助变量的多通道输入,表征站点邻域的降水结构和下垫面条件。对应各站日降水观测作为监督信号,与同日子网格特征配对构建“多源子网格特征–站点降水”样本对。需强调,雨量站观测是点尺度参考,不假设其代表N×N窗口的面平均降水,模型学习从多源邻域网格预测因子到点尺度降水的统计映射,邻域窗口作为可解释的空间上下文,帮助表征复杂地形下的局地降水变异性。
为增强输入尺度设置的透明度,对候选窗口大小(7×7, 9×9, 11×11, 13×13, 15×15)进行了敏感性比较(以最终A-CNN-LSTM框架为代表案例,保持训练策略和站点八折空间交叉验证划分不变)。结果表明,窗口大小从7×7增加至15×15使八站平均CC提高约0.016(0.7915→0.8071),平均RMSE降低约0.25 mm·d?1(6.949→6.702),而13×13与15×15之间差异微小(CC仅增约0.001,RMSE仅降约0.015 mm·d?1),表明性能增益在13×13–15×15范围内饱和。因此,采用15×15作为默认邻域窗口用于后续实验和产品生成。考虑到研究域为30×30网格,进一步增大窗口至17×17将导致近边界样本无法提取完整邻域,需额外边界处理(如填充或裁剪),可能引入不必要的不确定性,故未纳入更大窗口比较。
为评估所提方法的空