《Science of The Total Environment》:Explaining Great Lakes water level variability through interpretable ensemble machine learning
编辑推荐:
环境驱动因素分析,机器学习模型(SHAP、VARS)结合多湖水位预测,揭示气候与人类活动对五大湖水位波动的影响机制。
拉希姆·巴尔泽加尔(Rahim Barzegar)|埃赫桑·拉埃伊(Ehsan Raei)|扬·亚当诺夫斯基(Jan Adamowski)
地下水研究小组(Groundwater Research Group, GRES),矿业与环境研究所(Research Institute on Mines and Environment, RIME),魁北克阿比蒂比-泰米斯卡明格大学(Université du Québec en Abitibi-Témiscamingue, UQAT),加拿大魁北克省阿莫斯(Amos, Québec)
摘要
了解五大湖水位变化的环境驱动因素对于水资源规划、生态系统韧性以及跨国政策制定至关重要。本研究开发了一个可解释的多模型机器学习框架,用于量化1982年至2022年间环境因素对苏必利尔湖(Lake Superior)、密歇根湖(Lake Michigan)、伊利湖(Lake Erie)和安大略湖(Lake Ontario)月度水位波动的直接影响和滞后影响。研究人员使用了八种基于树的算法(随机森林(Random Forest)、额外树(Extra Trees)、梯度提升回归树(Gradient Boosting Regression Trees, GBRT)、基于直方图的梯度提升(Histogram-Based Gradient Boosting, HGBRT)、XGBoost、LightGBM、CatBoost和AdaBoost),并通过一种考虑时间因素的交叉验证方案进行训练,这些算法能够处理最多六个月的滞后预测变量。通过监督委员会机器学习(Supervised Committee Machine Learning, SCML)集成方法,这些算法的优势得到了互补。在上游湖泊中,梯度提升模型(XGBoost、LightGBM、HGBRT)的表现始终优于随机森林和AdaBoost;而SCML集成模型则提供了最稳定的预测结果,均方根误差(RMSE)值低至0.118米,并在挑战性时期和高方差情况下显著提升了测试集性能。为了揭示控制机制,研究人员将SHapley加性解释(SHAP)与响应曲面的变异图分析(Variogram Analysis of Response Surfaces, VARS)相结合,从而全面了解了直接和滞后驱动因素的影响。SHAP表明,流入量和流出量是决定湖泊水位动态的主要因素,而蒸发量、径流量和气温则作为次要但具有湖泊特异性的调节因素。VARS进一步揭示了明显的水文记忆效应,指出在3-4个月的滞后时间点上水文通量(流入量、流出量、径流量)的影响逐渐增强,而大气驱动因素主要影响短期水位变化。安大略湖由于水流调节作用而具有较弱的水文记忆特性,而伊利湖则高度依赖上游水流,这些湖泊特性影响了水位变化的可预测性。通过将预测准确性与透明解释能力相结合,本研究加深了对五大湖水位变化机制的理解,并为适应气候变化和日益增加的人为压力提供了可靠的诊断工具。
引言
五大湖——苏必利尔湖、伊利湖、密歇根湖和安大略湖——构成了地球上最大的淡水系统之一,支撑着数百万人口、多样的生态系统以及航运、渔业和旅游业等关键经济部门。然而,它们的水位存在显著波动,这主要是由于气候变异性、降水、蒸发、上下游连通性和人类调控等多种因素的复杂相互作用所致(Ozdemir等人,2023年)。最新研究表明,全球变暖加剧了这些波动,降水-蒸发平衡的变化、冰盖减少以及极端天气事件的增加改变了湖泊水位模式(Bartolai等人,2015年)。此外,干旱期间的用水量增加以及大西洋多年代际振荡(Atlantic Multi-decadal Oscillation)和厄尔尼诺-南方涛动(El Ni?o–Southern Oscillation)等大规模气候波动也影响了湖泊水文循环(Saber等人,2023年)。苏必利尔湖、密歇根-休伦湖(Michigan–Huron Lake)和伊利湖的水位变异性尤为明显,而安大略湖由于水流受到调控而表现出不同的动态特征(Saber等人,2023年)。这些变化对水资源供应、基础设施和生态系统稳定性产生了广泛影响。然而,由于控制过程的非线性和相互依赖性,预测这些变化仍然具有挑战性。
传统的湖泊水位建模和预测方法依赖于基于物理的水文模型,如水量平衡模型(Water Balance Models, WBMs)(Crapper等人,1996年)和综合流域模型(Integrated Catchment Models, ICMs)(Jiménez-Navarro等人,2023年)。WBM通过明确表示降水、蒸发、径流量和流入量/流出量来平衡水量,而ICM则结合流域和湖泊动态来解析整个流域的储水量变化(Cobourn等人,2018年)。这些工具已被应用于多种场景——从瑞典无需流量曲线的排放量估算到复杂流域-湖泊相互作用的评估(Lindstr?m,2016年),最近还出现了将水量平衡模型与统计或数据驱动更新相结合的混合方法(Somogyvári等人,2024年)。然而,这些模型通常需要详细的过程描述和广泛的校准,并且往往依赖于简化假设,这限制了它们捕捉高度非线性相互作用或在气候变化下的不确定性传播能力。传统的统计方法,包括回归分析、自回归模型和趋势分析,也被用于湖泊水位特征描述和预测(Dietzel和Reichert,2012年),但它们通常仅在短期范围内表现最佳,难以再现多年代际的非线性动态。
卫星遥感技术的进步显著提升了湖泊水位监测能力。TOPEX/Poseidon、Jason-1/2/3和Envisat等雷达测高任务为全球大型湖泊提供了数十年的高精度海拔数据(Birkett,1995年)。ICESat-2的ATL13光子计数激光雷达能够高精度地估算湖泊和水库的月度水位变化(Xu等人,2021年;Song等人,2023年)。Landsat影像与光子计数激光雷达结合使用,可重建自20世纪80年代以来的历史湖泊水位和体积数据,为长期的水量变化提供了背景信息(Xu等人,2020年)。最近,Surface Water and Ocean Topography(SWOT)任务提供了前所未有的高分辨率湖泊水位空间连续观测数据(Wu等人,2025年)。这些进步提供了前所未有的监测细节;然而,它们主要是描述性的——它们量化了水位变化,但未能识别导致这些变化的大气、水文或人为因素,也未分析这些因素的影响如何随时间演变。本研究通过结合预测准确性和透明解释能力,推进了对五大湖水位变化机制的理解,并为在气候变化和人为压力增加的情况下制定适应性管理策略提供了有力的支持。
引言(续)
五大湖——苏必利尔湖、伊利湖、密歇根湖和安大略湖——是地球上最大的淡水系统之一,支撑着数百万人口、多样的生态系统以及航运、渔业和旅游业等关键经济部门。然而,由于气候变异性、降水、蒸发、上下游连通性和人类调控等多种因素的复杂相互作用,它们的水位存在显著波动(Ozdemir等人,2023年)。最近的证据表明,全球变暖加剧了这些波动,降水-蒸发平衡的变化、冰盖减少以及极端天气事件的增加重塑了湖泊水位模式(Bartolai等人,2015年)。干旱期间的用水量增加以及大西洋多年代际振荡和厄尔尼诺-南方涛动等大规模气候波动也影响了湖泊水文循环(Saber等人,2023年)。苏必利尔湖、密歇根-休伦湖和伊利湖的水位变异性尤为明显,而安大略湖由于水流受到调控而表现出不同的动态特征(Saber等人,2023年)。这些变化对水资源供应、基础设施和生态系统稳定性产生了广泛影响。然而,由于控制过程的非线性和相互依赖性,预测这些变化仍然具有挑战性。
传统的湖泊水位建模和预测方法依赖于基于物理的水文模型,如水量平衡模型(WBMs)(Crapper等人,1996年)和综合流域模型(ICMs)(Jiménez-Navarro等人,2023年)。WBM通过明确表示降水、蒸发、径流量和流入量/流出量来平衡水量,而ICM则结合流域和湖泊动态来解析整个流域的储水量变化(Cobourn等人,2018年)。这些工具已被应用于多种场景——从瑞典无需流量曲线的排放量估算到复杂流域-湖泊相互作用的评估(Lindstr?m,2016年),最近还出现了将水量平衡模型与统计或数据驱动更新相结合的混合方法(Somogyvári等人,2024年)。然而,这些模型通常需要详细的过程描述和广泛的校准,并且往往依赖于简化假设,这可能限制了它们捕捉高度非线性相互作用或在气候变化下的不确定性传播能力。传统的统计方法,包括回归分析、自回归模型和趋势分析,也被用于湖泊水位特征描述和预测(Dietzel和Reichert,2012年),但它们通常只在短期内表现最佳,难以再现多年代际的非线性动态。
卫星遥感的进步显著提升了湖泊水位监测能力。TOPEX/Poseidon、Jason-1/2/3和Envisat等雷达测高任务为全球大型湖泊提供了数十年的高精度海拔数据(Birkett,1995年)。ICESat-2的ATL13光子计数激光雷达能够高精度地估算湖泊和水库的月度水位变化(Xu等人,2021年;Song等人,2023年)。Landsat影像与光子计数激光雷达结合使用,可重建自20世纪80年代以来的历史湖泊水位和体积数据,为长期的水量变化提供了背景信息(Xu等人,2020年)。最近,Surface Water and Ocean Topography(SWOT)任务提供了前所未有的高分辨率湖泊水位空间连续观测数据(Wu等人,2025年)。这些进步提供了前所未有的监测细节;然而,它们主要是描述性的——它们量化了水位变化,但未能识别导致这些变化的大气、水文或人为因素,也未分析这些因素的影响如何随时间演变。本研究通过解决这些解释性难题,为卫星产品和基于过程的机器学习模型提供了互补作用。
在过去十年中,机器学习(ML)作为一种强大的替代方法,已经能够在比传统水文模型更灵活的方式下模拟非线性和多变量关系(Lin等人,2024年)。基于树的集成方法,如随机森林(Random Forest, RF)和极端梯度提升(XGBoost),已被成功应用于湖泊水位变化模拟(Serencam等人,2022年)。深度学习方法,特别是长短期记忆(Long Short-Term Memory, LSTM)网络,在捕捉水文时间序列的长期依赖性方面表现出色(Du等人,2024年),而卷积神经网络(Convolutional Neural Network, CNN)与长短期记忆(LSTM)的混合架构通过结合空间和时间特征提取进一步提高了预测准确性(Lin等人,2024年)。此外,支持向量回归(Support Vector Regression, SVR)和人工神经网络(Artificial Neural Networks, ANNs)也因其在处理非线性关系方面的鲁棒性而被广泛用于湖泊水位预测(Yaseen等人,2020年)。最近的研究还探索了门控循环单元(Gated Recurrent Units, GRU)、基于注意力的神经网络和混合元学习框架,以捕捉湖泊和水库系统中的复杂时间行为(Chapon和Ozdemir,2025年)。尽管这些模型显著提高了预测能力,但大多数研究仅关注预测/预测本身,未系统评估环境因素的相对影响、相互作用或滞后效应,也未进行湖泊间的比较分析,这突显了需要结合高预测准确性和强解释能力的ML框架。这些不足表明,特别是对于像五大湖这样的系统,需要能够同时实现高预测准确性和强解释能力的ML框架,因为这些系统中的环境因素高度相互依赖和多变。然而,ML的优势往往伴随着“黑箱”限制,限制了其在科学和政策中的应用透明度。为了解决这一挑战,越来越多的研究者采用了可解释的ML技术,如SHapley加性解释(SHAP),提供了预测结果的特征级归因。然而,SHAP主要捕捉瞬时效应,可能无法完全反映多变量或滞后依赖关系(Razavi和Gupta,2016年)。敏感性分析(Sensitivity Analysis, SA)通过评估全局输入-输出关系提供了补充视角,而响应曲面的变异图分析(Variogram Analysis of Response Surfaces, VARS)框架(Razavi等人,2021年)提供了一种有效的方法来表征不同滞后时间下的时间和多变量敏感性。
在本研究中,我们开发了一个新颖的、可解释的集成ML框架,用于研究苏必利尔湖、密歇根湖、伊利湖和安大略湖月度水位变化的环境控制因素。我们使用了一组一致的预测变量,包括气象因素(气温、风速、蒸发量、降水量、降雪量、雪水当量、径流量)以及观测到的连接通道的流入量和流出量,i)在考虑时间因素的交叉验证方案下训练并比较了八种先进的基于树的模型,包括RF、Extra Trees、梯度提升回归树(GBRT)、基于直方图的梯度提升回归树(HGBRT)、XGBoost、Light Gradient Boosting Machine(LightGBM)、CatBoost和AdaBoost;ii)将这些表现最佳的模型整合到一个监督委员会机器学习(SCML)集成模型中,并使用遗传算法(GA)优化其权重;iii)应用SHAP和VARS框架来量化环境因素的直接和滞后影响。本研究的目标是:1)利用先进的基于树的集成机器学习方法开发五大湖水位的稳健预测模型;2)通过应用SHAP量化表面径流量、雪水当量、降雪量、降水量、气温、蒸发量、风速、流入量和流出量等环境因素的相对重要性;3)通过VARS框架评估这些因素的时间动态,捕捉它们对水位的即时和滞后影响;4)结合预测准确性和解释能力,为适应性水资源管理和气候韧性策略提供实用见解。这种双重方法通过提高透明度和鲁棒性,推动了环境系统研究,从而为这一关键淡水资源的决策制定提供了支持。
部分内容摘要
基础学习器
基础学习器包括多种集成模型和提升算法,如RF、Extra Trees、GBRT、HGBRT、XGBoost、LightGBM、CatBoost和AdaBoost,每种算法都采用了不同的非线性关系建模策略。这些模型通过组合多个决策树来生成预测结果,要么通过平均(bagging方法),要么通过顺序错误校正更新(boosting方法)。
五大湖的模型性能
使用考虑时间因素的5折交叉验证程序(Table 4),评估了包括RF、Extra Trees、GBRT、HGBRT、XGBoost、LightGBM、CatBoost和AdaBoost在内的八种机器学习模型在苏必利尔湖、伊利湖、密歇根湖和安大略湖上的预测性能。这八种机器学习模型的性能在四个湖泊上有所不同,基于提升的算法始终优于bagging和浅层集成方法。
湖泊间的ML预测能力差异
ML在四个湖泊上的性能存在系统差异,表明流域形态、流域连通性和调控限制影响了水位变化的预测能力。对于上游湖泊——苏必利尔湖、密歇根湖和伊利湖,基于提升的算法(XGBoost、LightGBM、GBRT、HGBRT)在训练和测试数据集中的表现始终优于RF和AdaBoost(Table 4)。
限制与未来研究方向
尽管所提出的框架在预测和解释能力方面表现出色,但仍存在一些局限性需要考虑。首先,尽管基于树的算法和SCML集成模型能够有效捕捉复杂的非线性关系,但这些模型仍然部分不透明,即使使用SHAP和VARS也无法完全解决所有高阶交互作用或环境因素之间的因果依赖性。SHAP提供了强大的特征归因洞察,但它主要反映了
结论
本研究通过结合多年代的水文气候输入和先进的机器学习模型集成框架,提出了一种理解五大湖水位动态的数据驱动方法。利用1982年至2022年的月度观测数据,分析结合了遥感产品、再分析数据和实地水文记录,并加入了最多六个月的滞后特征,以捕捉延迟的流域和大气响应。八种基于树的算法(例如RF、Extra
CRediT作者贡献声明
拉希姆·巴尔泽加尔(Rahim Barzegar):撰写原始草稿、可视化、验证、方法论、资金获取、概念构思。埃赫桑·拉埃伊(Ehsan Raei):撰写原始草稿、可视化、方法论、数据分析、数据整理。扬·亚当诺夫斯基(Jan Adamowski):撰写与编辑、验证、监督、方法论。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究得到了魁北克阿比蒂比-泰米斯卡明格大学(Université du Québec en Abitibi-Témiscamingue, UQAT)为拉希姆·巴尔泽加尔提供的启动资金支持。作者衷心感谢这一财务支持,使得本研究成为可能。