下一代径流预测:结合RFE、SHAP洞察和卫星数据,运用创新的深度学习技术

《Journal of Hydrology》:Next-generation runoff prediction: Merging RFE, SHAP insights, and satellite data with innovative deep learning techniques

【字体: 时间:2025年10月31日 来源:Journal of Hydrology 6.3

编辑推荐:

  流域日径流预测的混合深度学习模型研究:基于阿尔及利亚Oued Ouahrane Ras流域,采用RFE-GRU-CNN、RFE-GRU-BiLSTM和RFE-CNN-GRU-BiLSTM三种模型,结合TRMM卫星降水与实地观测数据,通过RFECV特征选择和SHAP可解释性分析,验证了GRU-CNN架构在TRMM数据上的最佳表现(RMSE最低3.61 m3/s),而RFE-CNN-GRU-BiLSTM在实地数据中表现更优(RMSE 3.815 m3/s),揭示了滞后流量(Q_t-1、Q_t-2)的主导作用及RFE的效率与计算成本平衡。

  本研究聚焦于北非阿尔及利亚中部的Cheliff流域中的Oued Ouahrane Ras流域,旨在通过引入三种先进的深度学习模型,提高该区域日径流预测的准确性。这些模型分别包括:(a) 基于递归特征消除(RFE)的门控循环单元-双向长短期记忆网络(GRU-BiLSTM);(b) RFE与门控循环单元-卷积神经网络(GRU-CNN)结合的模型;以及(c) RFE与卷积神经网络-门控循环单元-双向长短期记忆网络(CNN-GRU-BiLSTM)相结合的模型。这些模型在预测过程中结合了RFE进行特征选择和SHAP(SHapley Additive exPlanations)方法用于特征重要性分析。研究使用了两种不同的数据集:基于卫星的降水数据(来自Tropical Rainfall Measuring Mission,TRMM)和地面实测的水文观测数据,时间跨度为1998年至2012年。研究的目的是评估这些模型在不同数据源下的表现,并探讨如何通过特征选择和模型结构优化来提升预测效果。

在研究中,RFE-GRU-CNN模型在TRMM数据集上表现最佳,其最小均方根误差(RMSE)为3.61,而RFE-CNN-GRU-BiLSTM模型在地面实测数据集上表现出色,其RMSE为3.815。这表明,不同的数据源对模型性能有着显著影响,TRMM数据集因其广泛的空间覆盖和高频率的数据采集,能够捕捉到更复杂的降水模式,从而在某些模型中表现出更优的预测能力。然而,地面实测数据集由于其高精度和实时性,也显示出在预测稳定性方面的优势。SHAP分析结果显示,所有模型中,滞后径流输入(Qt???2)是最重要的预测因子,反映了流域的短期记忆特性,即当前径流受到前一时间步径流的影响较大,这可能与流域内的活跃储水过程有关。

研究还强调了RFE在模型优化中的作用。尽管RFE的引入使平均训练时间增加了约43.37秒,但这种额外的计算成本仍处于可接受范围内。例如,TRMM数据集的训练时间范围为1106.54至2425.52秒,而地面实测数据集的训练时间则在1224.71至1955.10秒之间。这些结果表明,RFE不仅有助于减少模型的输入维度,还能够提升模型的泛化能力和预测精度。通过特征选择,模型能够专注于最相关的变量,避免因引入冗余或无关变量而导致的过拟合问题。

在方法部分,研究详细描述了所采用的三种混合模型的构建过程。RFE-GRU-CNN模型采用两阶段的框架,首先通过RFE筛选出最重要的特征,然后利用GRU和CNN的组合结构来捕捉降水-径流序列中的时间依赖性和局部特征。GRU层用于提取时间序列的顺序依赖关系,而CNN层则用于识别空间和局部模式。这种混合架构能够同时学习时间性和空间性特征,从而提高预测的准确性。

RFE-GRU-BiLSTM模型则结合了RFE特征选择与GRU和BiLSTM的结构,其中BiLSTM是一种扩展的LSTM网络,能够同时处理时间序列的正向和反向依赖关系,从而更全面地捕捉径流变化的长期模式。该模型通过GRU层捕捉短期到中期的降水-径流关系,再通过BiLSTM层处理长期的径流变化趋势,这种组合能够有效提升模型的预测能力。

RFE-CNN-GRU-BiLSTM模型则是三种神经网络(CNN、GRU、BiLSTM)的组合,其优势在于能够综合处理降水和径流数据的空间和时间特性。CNN层用于提取局部特征,GRU层处理顺序依赖,BiLSTM层则捕捉双向的时间依赖关系。这种多阶段的结构能够更全面地建模降水-径流过程,从而在不同的数据源下提供更稳健和准确的预测结果。

此外,研究还探讨了不同数据源对模型性能的影响。TRMM数据集由于其较高的空间分辨率和时间频率,能够提供更全面的降水信息,但其数据的不确定性可能影响模型的稳定性。相比之下,地面实测数据集虽然数据量较小,但具有更高的精度和可靠性,因此在某些模型中表现出更稳定的预测效果。研究结果表明,TRMM数据集在预测精度方面优于地面实测数据集,而地面实测数据集在预测稳定性方面更具优势。这为未来的研究提供了重要的参考,即在不同的应用场景下,应根据数据源的特点选择合适的模型结构。

在模型的训练和评估过程中,采用了70/30的时序分割方式,即70%的最早观测数据用于训练,而30%的最新数据用于测试。这种分割方式能够确保模型在训练阶段学习到过去的时间模式,并在测试阶段评估其对未来未观测数据的预测能力,从而更贴近实际的预测需求。训练过程中使用了Adam优化器(学习率0.001)、批量大小为32、均方误差(MSE)损失函数以及早停机制(耐心15个周期)来防止过拟合。

研究还对模型的性能指标进行了详细分析,包括均方根误差(RMSE)、平均绝对误差(MAE)、纳什-苏特cliffe效率(NSE)、相关系数(R)和 Kling-Gupta 效率(KGE)。这些指标用于评估模型的预测精度和可靠性。在TRMM数据集上,RFE-GRU-CNN模型(M8)的RMSE为3.61,而在地面实测数据集上,RFE-CNN-GRU-BiLSTM模型(M7)的RMSE为3.815。这些结果表明,虽然TRMM数据集在某些模型中提供了更高的精度,但地面实测数据集在预测稳定性方面更具优势。此外,TRMM模型在训练和测试阶段均表现出较高的相关系数(R),表明其在捕捉降水-径流序列的趋势方面具有较强的适应性。

在可解释性分析方面,研究利用SHAP方法对模型的特征重要性进行了评估。SHAP分析结果表明,滞后径流输入(Qt???2)是所有模型中最重要的预测因子,反映了流域的短期记忆特性。这说明,径流预测主要依赖于近期的径流数据,而降水输入(无论是地面实测还是TRMM数据)则起到辅助作用。此外,SHAP热图和依赖图显示,尽管降水输入在某些情况下可能提供额外的信息,但其对预测的贡献幅度相对较小。这表明,径流预测更依赖于流域内部的储水过程和径流的持续性,而非外部降水的瞬时变化。

研究还对模型的计算成本进行了评估,发现RFE的引入虽然增加了训练时间,但其带来的性能提升是值得的。例如,在TRMM数据集上,RFE-GRU-BiLSTM模型(M6)的训练时间为1106.54秒,而未使用RFE的版本则为1063.16秒。同样,在地面实测数据集上,RFE-GRU-CNN模型(M8)的训练时间为1107.22秒,而未使用RFE的版本为1063.85秒。这些结果表明,RFE的引入虽然增加了计算负担,但其带来的模型可解释性和预测性能的提升是显著的。TRMM模型由于数据的复杂性和不确定性,通常需要更长的训练时间,但这种增加仍处于可接受范围内。

在性能评估方面,研究通过不同的模型配置和数据源,比较了它们在预测精度和稳定性方面的表现。TRMM数据集上的RFE-GRU-CNN模型(M8)在测试阶段表现出最低的RMSE(3.61),而地面实测数据集上的RFE-CNN-GRU-BiLSTM模型(M7)则在稳定性方面更优。这些结果进一步支持了模型选择应根据具体的应用场景进行调整的观点,即在需要高精度预测的场景下,应优先选择TRMM数据集;而在需要稳定预测的场景下,地面实测数据集可能是更好的选择。

此外,研究还探讨了模型的泛化能力。在测试阶段,所有模型的RMSE均有所增加,这反映了模型在面对新的水文条件时的挑战。然而,某些模型(如RFE-GRU-CNN和RFE-CNN-GRU-BiLSTM)仍然保持了较高的预测能力,表明它们在不同数据源下具有较好的适应性。这些模型的高相关系数(R)和纳什-苏特cliffe效率(NSE)进一步证明了它们在预测精度和可靠性方面的优势。

从水文系统的角度来看,滞后径流变量(Qt?1和Qt?2)在预测中占据主导地位,这表明流域具有较强的短期记忆特性。这种特性可能与流域内的储水能力有关,即储水过程能够延迟径流的释放,从而影响当前的径流预测。相比之下,降水变量(无论是地面实测还是TRMM数据)的贡献相对较小,这说明降水在日尺度上的影响有限,而径流的持续性是主要的预测因子。

研究还强调了RFE在模型优化中的重要性。通过RFE,模型能够识别出最相关的特征,从而减少输入维度,提高预测的准确性和稳定性。例如,在TRMM数据集上,RFE-GRU-CNN模型(M8)选择了6个特征,而在地面实测数据集上,RFE-CNN-GRU-BiLSTM模型(M7)选择了7个特征。这些结果表明,RFE的特征选择策略能够有效提升模型的性能,同时避免引入冗余或无关的变量。

最后,研究提出了未来的研究方向。例如,可以探索基于注意力机制的网络结构或混合LSTM-Transformer架构,以进一步提高预测的准确性。此外,优化计算效率,如通过并行计算或GPU加速,以及将模型应用于实时数据和更广泛的数据集,也是未来研究的重要方向。同时,研究建议将模型扩展到长期径流预测,并结合其他气候变量(如温度和降水趋势)来进一步提高预测的精度,从而支持更有效的水资源管理、洪水防控和农业规划。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号