基于机器学习的分析方法,研究了高海拔干旱地区不同土地覆盖类型下的实际蒸发量预测因子

《Ecological Informatics》:A machine learning-based analysis of actual evaporation predictors across different land covers in high-elevation drylands

【字体: 时间:2025年10月15日 来源:Ecological Informatics 7.3

编辑推荐:

  智利安第斯高原四种地表类型实际蒸发量(E)的关键预测因子分析,基于随机森林(RF)和SHAP解释方法。研究发现:盐沼和植被地表以能量(净辐射Rn、气温Ta)为主导,机械湍流(WS)次之;裸土受能量与土壤水分(SM)共同影响;水体地表机械湍流作用显著。通过筛选核心变量(盐沼4个、植被4个、裸土4个、水体3个),模型精度(R2≥0.80)与全变量集相当,支持低成本监测网络设计。成果为高海拔干旱区水文模型优化及水资源管理提供理论依据。

  在干旱、高海拔地区,准确估算实际蒸发量(E)对于可持续的生态系统管理至关重要,因为这些地区的水损失主要由蒸发过程主导。这些地区通常具有内流盆地和异质的地表覆盖,包括盐沼、植被覆盖、裸露土壤和浅层地下水以及盐湖等。E是能量可用性、水可用性和大气动力之间复杂相互作用的结果。尽管近年来的研究强调了机器学习(ML)算法在预测E方面的潜力,但不同地表覆盖类型中环境预测因子的变异性仍缺乏系统探索。本研究应用随机森林(RF)算法,以识别智利阿塔卡马沙漠高原(Altiplano)中不同蒸发性地表覆盖的关键预测因子,使用了多个实地考察中收集的蒸发通量和环境变量。通过Shapley加性解释(SHAP)方法评估了预测因子的重要性。研究结果揭示了不同地表覆盖下E的主要预测因子存在显著差异:能量限制主导盐沼和植被覆盖;裸露土壤则受到能量和水可用性的共同影响;而开放水域则由机械湍流主导。进一步的研究表明,使用较少的变量集合也能实现准确的E预测,这为设计成本效益更高的监测网络提供了支持,聚焦于关键的环境预测因子。这些发现不仅加深了我们对干旱、高海拔生态系统中陆地-大气相互作用的理解,还为全球高海拔干旱地区的水资源管理提供了可扩展、数据驱动的方法。

研究区域位于智利的阿塔卡马沙漠高原,该地区海拔范围从3500米到超过5500米,是世界上最高的高原之一。该区域的气候以半干旱到极干旱为主,具有显著的昼夜温度变化,降水主要集中在南半球夏季(12月至3月),由与南美季风系统相关的对流事件驱动。年降水量因地理位置和海拔而异,平均在100至400毫米之间。该地区受到厄尔尼诺南方涛动(ENSO)的影响,导致某些时期降水低于平均水平,温度高于正常水平。环境条件还包括高太阳辐射(>1000 W/m2)、低比湿(<1 g/kg)和有限的土壤湿度,这些因素共同塑造了该地区极干旱的特征。根据Lobos-Roco等人的研究,该区域的E呈现出两个明显的子日尺度模式:早晨模式受局部条件影响,下午模式则由区域性的风力驱动。早晨时,净辐射和地面热通量较高,风速较低,E率相对较低。由于缺乏湍流,空气动力学阻力较高,阻止了饱和湿度与干燥大气之间的混合。下午时,太平洋与阿塔卡马沙漠之间的日间环流导致风速增强,从而显著提高了E。这种子日尺度模式在该高原的其他地点也有所体现。

本研究使用了四个不同的地表覆盖类型,并在每个覆盖类型中部署了涡度协方差(EC)系统和气象站。这些数据对于该偏远地区来说非常宝贵,因为其他地区如中国的青藏高原、美国的大盆地和非洲的乍得湖盆地等,也面临着类似的监测挑战。本研究的数据集包括现场采集的30分钟间隔的E通量和六种典型的环境变量:净辐射(Rn)、气温(Ta)、相对湿度(RH)、大气压(Pa)、风速(WS)和土壤湿度(SM)。在盐沼、植被和裸露土壤覆盖区域,所使用的仪器与Suárez等人在2024年的研究一致;而在水体主导的覆盖区域,仪器的描述则参考了Suárez等人的2020年研究。Rn和Ta用于表示可用于蒸发的能量,而RH和Pa影响大气对水蒸气的需求。WS在水蒸气从地表向大气传输过程中起着关键作用,而SM在干旱地区尤为重要,因为水的可用性可能限制E。

在预处理阶段,数据进行了以下过滤:(i)仅使用具有完整信息的30分钟间隔;(ii)将夜间记录的负E值标准化为0 mm/day;(iii)利用三倍标准差规则排除异常值。在对盐沼地表覆盖的分析中,由于高电导率,SM的测量质量较差,因此被排除。然而,实地考察表明,盐沼在大多数观测期间仍保持相对湿润。经过预处理,数据集总共包含了55,408条E通量和气象数据记录,被认为适用于这种探索性分析。

RF算法是一种集成学习技术,用于分类、回归以及各种任务。它以其简单性、灵活性和在不同问题领域的有效性而闻名,广泛用于其稳定性和预测准确性。RF通过在训练过程中构建多个决策树,并结合它们的结果来实现稳健和准确的预测。在分类任务中,输出由各个树的多数投票决定;而在回归任务中,它返回平均预测值。RF结合了“套袋”技术与随机特征选择,创建了一个多样化的决策树集合。每个树在随机子集的数据和特征上进行训练,减少了过拟合并提高了泛化性能。这种方法有助于减少方差而不显著增加偏差,使得RF对噪声和缺失数据具有鲁棒性。此外,RF提供了特征重要性的解释性,并且计算效率高,使其成为多种应用的优选算法。

SHAP值是一种用于机器学习的解释方法,通过将每个特征对模型输出的影响归因于模型预测,来量化环境变量的相对重要性。这些值基于合作博弈论中的Shapley值计算,根据特征在所有可能特征组合中的边际影响来分配其对预测的贡献。通过比较对应的SHAP值,可以确定每个预测变量对模型输出的影响,而不仅仅是传统的特征重要性分析。SHAP值可以是正数,表示特定变量对预测值的提升;负数则表示变量对预测值的下降;而零值则表明该变量对预测值没有明显贡献。这种区分在生态水文学背景下尤为重要,因为同一环境因素(如土壤湿度、风速或温度)可能在不同的大气和地表条件下促进或抑制实际蒸发。

为了评估输入变量对E预测的影响,本研究对每种地表覆盖类型使用了SHAP方法。该分析提供了每种预测因子在不同地表覆盖中的相对重要性排序,以识别E的关键预测因子。同时,通过设置SHAP值为零的阈值,可以确定预测因子对E预测的正负贡献边界。此外,这些阈值还用于识别变量间的依赖效应。最后,为了评估模型对不同数量的气象预测变量的敏感性,使用表现最佳的算法构建了六个模型,这些模型使用了不同组合的输入变量,从通过SHAP分析确定的最重要的输入变量开始,然后按重要性递减的顺序逐步加入其他预测因子。需要注意的是,由于盐沼和水体地表覆盖中土壤湿度始终较高,因此未构建包含SM的模型。这种系统方法允许分析输入变量的逐步增加对模型预测能力的影响,从而得到一个在性能和变量数量方面都优化的模型。

研究结果表明,RF算法在预测不同地表覆盖下的E方面表现出色,且其性能指标(R2≥0.80,RMSE≤1.21 mm/day,MAE≤0.66 mm/day,PBIAS≤2%)显示出良好的预测能力。盐沼地表覆盖表现出最低的性能指标,这可能与盐沼地表复杂的物理条件和地表特征有关,如表面结壳、盐分浓度和水分可用性的变化。尽管这些变化是偶发性的,但由于土壤毛细作用和浅层地下水的存在,盐沼地表通常保持相对湿润,因此并未出现频繁的零E值。因此,盐沼地表的E表现出更大的时空变异性。相比之下,裸露土壤表现出最高的模型准确性,其MAE和RMSE均较低,而水体地表覆盖则表现出较高的R2值,这可能与其较高的水可用性和一致的E模式有关。植被覆盖的E模式则处于中间水平,其预测能力与盐沼和水体相比稍弱。

通过SHAP值的分析,可以确定不同地表覆盖下的关键预测因子。在盐沼地表覆盖中,Rn、Ta和WS被识别为最重要的预测因子,它们的SHAP值分布范围较广。较高的E率通常与较高的Rn和Ta值相关,而较低的WS值则会抑制E。WS的SHAP值集中在零附近,表明其影响依赖于能量输入。RH的SHAP值则表明其与预测E的关系不明确。在植被覆盖中,Ta是主要的预测因子,其次是WS,这两个变量的关系与盐沼地表覆盖相似。SM、Pa和RH在植被覆盖中表现出较小的重要性。在裸露土壤覆盖中,Rn是最关键的预测因子,SM和RH也显示出重要影响。SM的重要性依赖于其与观测E的正相关性,而Ta和WS在裸露土壤中则不显著。在水体覆盖中,WS是主要的预测因子,Ta次之,但其影响范围较小。此外,Ta值与E预测之间没有明显的线性关系。

通过进一步分析SHAP值的分布,可以识别出某些输入变量的阈值,这些阈值会改变其对E的影响趋势。例如,在水体覆盖中,WS的阈值为10 m/s,这是明确的例子。该阈值验证了Lobos-Roco等人在2021年研究中建立的WS阈值,用于区分Salar del Huasco中观察到的两种大气条件。在早晨,机械湍流受限于低风速;而在下午,风速的增加增强了机械湍流,从而显著提高了E的贡献。在盐沼和植被覆盖中,阈值的定义较为模糊,分别在0–500 W/m2和0–300 W/m2之间。WS的阈值在盐沼和植被覆盖中分别为7.5和10 m/s。对于裸露土壤,SM的阈值约为0.32到0.45 m3/m3,而RH的阈值约为30%。这些阈值的存在表明,环境变量之间的相互作用对E的预测具有重要影响。

研究还表明,虽然Rn、Ta和WS是预测E的主要变量,但它们的预测能力受到地表覆盖特征的显著影响。在盐沼和植被覆盖中,E主要受能量限制,而在裸露土壤中,E则受到能量和水分可用性的共同影响。水体覆盖则主要受机械湍流的影响,这与风速密切相关。此外,研究发现,不同地表覆盖下的预测因子重要性存在显著差异。例如,在盐沼地表覆盖中,Rn、Ta和WS是最关键的预测因子,而在植被和裸露土壤覆盖中,SM和RH的重要性则相对较低。这些结果表明,RF模型能够准确捕捉实际蒸发的基本过程,包括大气需求、能量可用性和地表湿度条件。

研究还探讨了模型对不同数量的预测变量的敏感性。通过逐步加入预测变量,可以评估模型性能的变化。结果显示,对于盐沼、植被和裸露土壤覆盖,加入四个最重要的预测变量后,模型性能趋于稳定,而水体覆盖则在加入三个变量后达到满意水平。这表明,虽然增加更多的预测变量可能提高模型性能,但其带来的边际收益逐渐减小,而增加的监测成本却显著上升。因此,选择最少的预测变量以实现高精度的E预测是可行的。这为在偏远地区设计成本效益更高的监测网络提供了支持,因为这些地区通常缺乏全面的通量测量数据。

研究结果对干旱地区的水资源管理具有直接的应用价值。例如,识别出水体覆盖中风速是主要的蒸发驱动因子,这表明在水体中采取机械湍流缓解措施(如风障或漂浮盖)可以显著减少水分损失。同样,盐沼和植被覆盖的E主要受能量限制,这表明通过遮荫技术或植被管理可以调节这些生态系统的蒸发率。这些见解使政策制定者能够根据地表覆盖特定的驱动因素优先采取干预措施,优化水资源的节约和利用。此外,研究中识别出的预测变量集(如地表覆盖使用四个变量,水体使用三个变量)为在偏远地区设计高效监测网络提供了实际框架。通过关注关键驱动因素(如裸露土壤中的净辐射、水体中的风速),相关方可以部署简化型气象站,而不影响预测准确性。这种方法对于缺乏大规模观测数据集的地区尤为重要,例如FLUXNET2015或AMERIFLUX等。

此外,本研究的模型还可以用于流域尺度的水文建模,将基于ML的E预测与远程收集的气象数据相结合,作为估算地下水补给的物理模型输入,从而提高对整个流域水可用性的评估能力。同时,研究结果还为在气候变化情景下的水文建模提供了见解,展示了E如何对预测的温度升高做出反应。根据温度预测,阿塔卡马高原在2021-2050年期间,相较于参考时期(1976-2005年),在RCP 2.6情景下温度预计上升1.2°C,在RCP 8.5情景下预计上升1.6°C。通过分析图4中建立的变量关系,可以估计这些温度升高如何影响每种地表覆盖的E,并支持适应性水资源分配政策的制定。

然而,研究也存在一定的局限性。首先,预测因子的识别和应用可能受到特定时间和空间尺度的影响。例如,Lobos-Roco等人发现,在Salar del Huasco的开放水域中,E的驱动因子随时间尺度的不同而变化。在子日尺度上,机械湍流(受风速变化限制)是E的主要预测因子;而在季节尺度上,风速相对稳定,而净辐射表现出显著的季节性变化,因此成为E的主要解释因子。此外,盐沼和植被覆盖中的浅层地下水维持了相对稳定的土壤湿度,这可能意味着在这些区域中,土壤湿度的贡献被限制在一定的范围内。因此,尽管本研究在子日尺度上识别了关键预测因子,但在更长时间尺度上可能需要进一步的分析。其次,缺乏地表温度的现场测量可能限制了对土壤和植被共同热响应的准确捕捉。未来的研究可以考虑将这一变量纳入分析,以更好地理解能量交换过程对实际蒸发的影响。

尽管存在这些限制,本研究的方法为在水资源匮乏和偏远地区研究E提供了一个稳健的框架。将基于ML的E估算整合到水文模型中,可以增强我们对地下水补给、优化灌溉策略以及在不同气候情景下预测水资源可用性的能力。此外,识别关键预测因子和阈值,有助于开发高分辨率的蒸发图,从而定位受气候变化影响更大的地区。这些信息对于政策制定者至关重要,使他们能够采取主动措施,如生态系统保护、基础设施规划和可持续水资源分配策略,以应对高海拔干旱环境中的水资源挑战。

本研究的未来挑战在于将该方法应用于不同的高海拔干旱地区,以评估所开发的ML模型的泛化能力。此外,还应扩展分析,考虑环境和季节性因素的影响。具体而言,研究应旨在(i)使用更长的时间尺度识别E的主要预测因子,考虑到水文系统中的季节性变化;(ii)评估相同地表覆盖类型下局部条件对E的影响;(iii)改善每种地表覆盖类型的水分可用性表征。这些扩展研究将有助于更全面地理解E过程,并为高海拔干旱地区的水资源管理提供更精确的指导。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号