基于XGBoost机器学习构建全球长期多层土壤水分数据集(SWSM)及其水文应用分析

《Scientific Data》:A global long-term daily multilayer soil moisture dataset derived from machine learning

【字体: 时间:2025年12月16日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对现有土壤水分产品空间分辨率低、垂直覆盖浅、时空不连续等局限,开发了基于XGBoost的全球无缝多层土壤水分数据集(SWSM)。该数据集提供2002-2021年0.05°分辨率的三层(0-10 cm、10-30 cm、30-60 cm)日尺度土壤水分,验证显示各层Pearson R均>0.90,RMSE<0.05 m3/m3。SHAP特征重要性分析证实其物理一致性,为水文模拟、农业水资源管理和气候变化研究提供高精度数据支撑。

  
土壤水分是地球系统和生命活动的"血液",它如同隐秘的调度者,默默调控着陆地与大气的能量交换、植被的生长节律以及干旱洪涝的演变。然而,科学家们长期面临一个尴尬的困境:虽然深知土壤水分的重要性,却难以精准捕捉其在全球范围内随时间和空间的变化规律,特别是地表以下更深层的土壤水分状况。
现有卫星遥感产品如SMAP和AMSR2等,虽然能提供大范围观测,但存在三大硬伤:空间分辨率过于粗糙(通常大于25公里),无法看清复杂地貌下的细节;探测深度有限,大多只能感知地表5厘米以内的浅层水分,对植物根系分布的关键层(如10-30厘米)无能为力;观测数据时常"断片",受云层、植被等因素干扰导致时空不连续。而陆地表面模型(如ERA5-Land)虽能全球覆盖,但其简化参数化方案在复杂地形区往往"水土不服"。
面对这些挑战,武汉大学等单位的研究团队另辟蹊径,将目光投向蓬勃发展的机器学习技术。他们开发了一套基于XGBoost(极端梯度提升算法)的多层土壤水分反演框架,生成了名为SWSM(Seamless Worldwide Soil Moisture)的全新数据集。这项研究成果近期发表在《Scientific Data》期刊,为全球水文研究提供了又一利器。
研究团队采用集成创新思路,将ERA5-Land再分析数据与多源环境变量深度融合。他们从国际土壤水分网络(ISMN)获取全球2842个站点、覆盖71个观测网络的原位观测数据作为训练基准,同时整合了降水、地表净太阳辐射、地表温度(LST)、叶面积指数(LAI)、土地利用、数字高程模型(DEM)、土壤质地和基岩深度等11类环境因子。通过10折交叉验证的网格搜索优化超参数,最终构建了三个土壤层(0-10 cm、10-30 cm、30-60 cm)的预测模型。
模型验证
模型在所有三个土壤层均表现出卓越的预测性能。如图3所示,散点图和概率密度分布显示预测值与实测值高度吻合。定量指标显示:表层(0-10 cm)相关系数R为0.905,随深度增加至0.919;均方根误差(RMSE)从表层的0.047 m3/m3降至深层的0.045 m3/m3。无偏均方根误差(ubRMSE)与RMSE相等,偏差接近于零,表明模型不存在系统性高估或低估。
与现有产品对比
SWSM与SoMo.ml、GLDAS、GLEAM等主流产品的对比验证显示(图4),基于机器学习的SWSM和SoMo.ml在三个深度和各项指标上均优于GLDAS和GLEAM。在0-10 cm层,SWSM表现出更小的中位数偏差和更窄的误差分布;在10-30 cm层,SWSM在细质和中质土壤中保持低偏差和高相关性;在30-60 cm层,SWSM的偏差更接近零,且在粗质和细质土壤中均获得较低RMSE。
时空验证
跨气候带的时间序列验证(图5)表明,SWSM在大多数湿润热带和温带站点能准确捕捉季节振幅和降水驱动的短期响应,与原位观测相位对齐良好。在干旱区站点,SWSM在表层和中层表现出略低的Pearson R,但较小的RMSE表明其与实测值具有更好的数值一致性。在极地区域,SWSM在表层和中层保持低RMSE和高相关性(R>0.8),但在最深层相关性下降,这可能是冻融循环和永久冻土影响所致。
空间相关性分析(图6)显示,SWSM在欧洲和北美等温带地区达成高度一致,但在中亚、北美内陆、澳大利亚内陆等干旱半干旱区相关性显著下降。所有数据集在地形复杂山区、冻融循环强烈或季节性积雪覆盖区均表现出较低相关性,且随探测深度增加,相关性强度逐步减弱。
SHAP值验证
特征重要性分析(图7)揭示了清晰的深度依赖性特征贡献层次,验证了数据集的物理合理性。在0-10 cm层,ERA5-Land土壤水分数据居主导地位,地形和土壤质地(粉粒、粘粒)作用显著;在10-30 cm层,土壤物理性质(如砂粒含量)和地下指标影响凸显;在30-60 cm层,ERA5-Land SM仍保持重要影响,同时砂粒含量和基岩深度等地下特征作用增强。地表相关预测因子(LST、LAI)随深度影响减弱,质地和基岩深度权重上升,呈现出连贯的物理合理深度趋势。
消融分析(图8)进一步验证了各输入数据类别的必要性。移除ERA5-Land SM或静态土壤属性导致所有深度性能最大下降,凸显其基础贡献;而地表遥感指标(LAI、LST)的影响仅在表层(0-10 cm)显著,随深度急剧减弱,符合其物理作用。
与现有产品空间对比
全球平均分布(图9左)显示,三个土层水分值集中在0.0-0.5 m3/m3范围,赤道和热带地区(如亚马逊盆地、刚果盆地、东南亚)值最高(>0.3 m3/m3),干旱区(如撒哈拉沙漠、中东、中亚)值最低(<0.1 m3/m3)。随深度增加,湿度特征空间分异保持稳定但数值变化显著:0-10 cm层整体湿度略低于10-30 cm层,30-60 cm层在湿润区维持较高值。纬度平均曲线比较(图9右)显示,所有数据集在赤道区(0-10°N/S)出现湿度峰值,副热带(20-30°N/S)显著降低,中高纬度(>40°N/S)回升。SWSM在副热带(15-50°N/S)与GLEAM吻合良好,与SoMo.ml和GLDAS遵循一致变化模式。
GLDAS NOAH与SWSM的时空一致性分析(图10)表明,在表层,除撒哈拉沙漠、高纬度和部分局部区域外,大多数地区呈现高且显著的相关性,同时RMSD较小;在深层土壤,湿润区仍能维持高水平相关性,而高纬度和冻融过渡区往往同时出现低R值和大RMSD,反映了两产品在这些区域的较大误差。
不确定性分析
预测区间覆盖概率(PICP)在三层分别为93.8%、94.4%和94.5%,平均区间宽度约0.18(图11)。这些结果表明模型在保持合理窄区间的同时实现了高覆盖度,为预测不确定性提供了可靠表征。
本研究开发的SWSM数据集通过可解释的XGBoost框架整合多源信息,提供了高空间分辨率、长期、多深度的全球无缝土壤水分数据。验证表明其具有高精度和一致性,特征归因分析证实了其物理合理性:表层由ERA5-Land SM和地表指标主导,深层逐渐反映土壤质地和地下特性,强化了数据集的结构有效性。
该数据集的局限在于依赖原位站点数据,在站点覆盖稀疏区域数据质量存在不确定性;某些区域深层土壤数据质量受土壤结构和深层水分运移复杂性影响,性能略低于表层土壤;冻融土壤水分波动物理限制仍可能引入误差。尽管如此,SWSM数据集为补充现有土壤水分产品、推进环境监测和气候变化研究提供了宝贵资源。
这项研究不仅填补了全球高分辨率多层土壤水分数据的空白,更通过机器学习与多源数据融合的创新方法,为理解陆地水循环提供了新的视角和工具。随着全球气候变化加剧,对土壤水分精确监测的需求日益迫切,SWSM数据集有望在农业干旱预警、水资源管理和气候模型改进等方面发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号