机器学习揭示了过去二十年青藏高原湖泊的月度变化特征

《Journal of Hydro-environment Research》:Machine learning revealed monthly change characteristics of lakes on the Tibet Plateau over the past two decades

【字体: 时间:2025年10月17日 来源:Journal of Hydro-environment Research 2.3

编辑推荐:

  本研究以河南省济源市小浪底北岸灌区为区域,创新性地构建了Sparrow Search Algorithm-optimized CNN-BiLSTM-Attention(SSA-CBLA)模型,通过数据增强、双引擎特征提取(CNN与BiLSTM)和动态注意力机制,有效解决了地下水预测中的数据稀缺与时空复杂性问题,实验显示其RMSE为0.0958,R2达0.9642,显著优于传统模型。

  在当前的水资源管理与预测研究中,地下水位的变化是评估地下水系统状态的关键指标,它直接影响河流、湖泊及湿地的水文平衡。准确预测地下水位对于防洪、灌溉以及水资源的可持续利用具有重要意义,同时为生态保护提供了科学依据。传统的地下水位预测方法主要包括物理模型和统计模型,其中物理模型基于地质结构和数值模拟,虽然具有较高的理论依据,但往往需要复杂的参数校准,计算成本较高;而统计模型如自回归积分滑动平均(ARIMA)和马尔可夫链(Markov chains)虽然在可解释性和理论简化方面具有一定优势,但其性能往往受限于对线性假设和静态数据模式的依赖,难以捕捉水文系统中复杂的非线性时空依赖关系。近年来,深度学习技术的快速发展为水位预测提供了新的思路,推动了从传统模型驱动到数据驱动范式的转变。尽管这种转变可能牺牲一定的模型可解释性,但它显著提升了预测精度和对复杂水文动态的适应能力。

为了应对当前研究中面临的挑战,本研究提出了一种新型的混合预测框架——基于改进的麻雀搜索算法(SSA)优化的卷积神经网络(CNN)-双向长短期记忆网络(BiLSTM)-注意力机制(Attention)模型(SSA-CBLA)。该模型旨在解决数据稀缺和复杂水文动态的问题,通过数据增强、特征提取和全局优化等多方面的协同作用,提高预测模型的泛化能力和鲁棒性。具体而言,该模型引入了一种双阶段的数据增强策略,包括滑动窗口采样和高斯噪声注入,以减少小样本数据的过拟合问题。此外,模型采用CNN-BiLSTM-Attention架构,不仅是一个简单的序列结构,而是一个统一的特征处理流程,其中CNN用于提取局部时空特征,BiLSTM捕捉双向的长期依赖关系,而注意力机制则通过动态权重分配,识别关键特征和时间点。最后,模型通过麻雀搜索算法进行端到端的全局超参数优化,确保模型在最佳性能和鲁棒性之间取得平衡。

研究区域选在河南省济源市的小龙门北岸灌区,该区域具有典型的水文特征和复杂的地下水动态。研究团队从项目监测中获取了水文数据,同时从国家地球系统科学数据中心(National Earth System Science Data Center)获取了气候和植被数据。这些数据涵盖了从2019年1月至2023年12月期间,监测点的月度记录,包括水位、降水量、气温、潜在蒸散发(PET)和归一化植被指数(NDVI)。通过这一数据集,研究团队验证了SSA-CBLA模型的有效性,并展示了其在实际水文环境中的优越表现。

在模型设计方面,研究团队首先对数据进行了预处理,包括缺失值插值和标准化。缺失值插值采用了均值平滑法,以避免传统方法可能引入的偏差。标准化则通过最大最小归一化,将所有变量调整至[0,1]区间,以确保特征尺度的统一,加快参数收敛并优化训练效果。在数据增强方面,团队采用了滑动窗口和高斯噪声注入相结合的方法。滑动窗口采样通过对原始时间序列进行周期性位移,模拟不同年份的数据变化,同时保留其周期性特征。高斯噪声注入则通过向训练数据添加特征特定的噪声,提高模型对数据不确定性的适应能力。这些增强方法不仅提升了数据的多样性,还增强了模型的鲁棒性。

为了评估模型的性能,研究团队采用了五种评价指标:均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和决定系数(R2)。实验结果显示,SSA-CBLA模型在所有评价指标中均表现优异,其中RMSE为0.0958,R2为0.9642,显著优于其他基准模型。这些结果表明,SSA-CBLA模型在地下水位预测任务中具有较高的准确性和鲁棒性。此外,通过消融实验(ablation experiment),团队进一步验证了模型中各个模块对性能的贡献。结果显示,CNN与BiLSTM的结合显著提升了模型的性能,从基准模型的R2=0.1651提升至0.3669;而注意力机制的引入则进一步降低了均方误差,从0.0906降低至0.0710;最终,通过麻雀搜索算法进行的全局超参数优化使模型的R2达到0.9642,RMSE降至0.0958,显示出其在复杂时间序列预测任务中的综合优势。

在模型的鲁棒性分析方面,研究团队测试了模型在不同噪声水平和窗口大小下的表现。结果显示,模型在3%噪声水平下表现最佳,MSE、RMSE、MAE和MAPE均较低,而R2较高。这表明,高斯噪声注入在训练过程中起到了正则化的作用,提高了模型的泛化能力。然而,当噪声水平提高至5%时,模型的性能显著下降,这说明噪声水平的上限已超出模型的承受能力。此外,模型对窗口大小较为敏感,当窗口大小为12时,模型能够实现相对准确的预测,而在其他窗口大小下性能不佳。这表明,模型需要完整的年度周期(即12个月)作为输入,以捕捉水文系统中的主要环境频率。这一发现进一步支持了模型在时间序列预测中的物理意义,即它能够识别并利用水文过程中的时空依赖关系。

模型的局限性也得到了深入分析。预测误差随着预测周期的延长而累积,这主要归因于多源不确定性,如数据噪声和参数不稳定性。此外,输入特征的局限性(仅包括降水、气温、PET和NDVI)限制了模型对复杂水文驱动因素的捕捉能力。因此,未来的研究方向应包括整合更多的人类活动数据,以全面反映地下水系统的变化;同时,应将物理约束引入模型架构中,以提高模型的可解释性和物理一致性,特别是在极端事件下;此外,还应开发迁移学习框架,以提高模型在其他数据稀缺区域的适用性。

综上所述,SSA-CBLA模型在地下水位预测方面展现出了显著的优势。它不仅在多个基准模型中表现最佳,而且通过其系统优化的设计,为可持续水资源管理提供了可靠的、准确的和高效的解决方案。该模型的创新性在于其多模块融合的结构,通过协同作用提升了预测性能,同时其基于麻雀搜索算法的全局优化策略确保了模型在复杂环境下的适应性和鲁棒性。未来,随着更多数据和更复杂模型的引入,SSA-CBLA框架有望进一步优化,成为水文科学中深度学习驱动解决方案的重要范例。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号