基于随机森林的多源数据融合全球多层土壤水分数据集SMRFR的构建与应用研究

【字体: 时间:2025年07月10日 来源:Scientific Data 5.8

编辑推荐:

  本研究创新性地利用随机森林(RF)算法整合多源数据,构建了全球9公里分辨率、覆盖5个土层(0-100 cm)的日尺度土壤水分(SM)数据集SMRFR(2000-2023)。通过扩展三重共定位(ETC)方法筛选高质量训练站点,结合ERA5-Land再分析数据和MODIS植被指数等21类预测因子,实现了0.0339 m3/m3的验证集无偏均方根误差(ubRMSE),显著提升了深层根区土壤水分(RZSM)的监测能力,为农业水文模型和气候变化研究提供了高精度数据支撑。

  

背景与意义
土壤水分(SM)作为陆地-大气界面水碳能量交换的关键变量,对径流、蒸散发等水文过程具有重要调控作用。现有监测手段存在明显局限:原位观测网络(如ISMN)空间代表性不足;卫星遥感(如SMOS/SMAP)仅能获取表层(~5 cm)数据;陆面模型(LSM)则受参数化不确定性的影响。本研究提出的SMRFR数据集通过机器学习方法突破了这些技术瓶颈。

研究方法创新
研究团队采用严格的质量控制流程,从国际土壤水分网络(ISMN)筛选出433个代表性站点作为训练数据,并创新性地引入扩展三重共定位(ETC)技术进行数据质量评估。预测因子体系包含ERA5-Land再分析数据、MODIS植被指数(NDVI/EVI)、地形特征和土壤属性等21类变量。通过五折交叉验证优化随机森林(RF)超参数(n_estimator=1100, max_depth=560),构建了分层预测模型。

关键发现

  1. 垂直渗透特征:模型重要性分析显示,上层土壤水分对下层预测贡献率达47-62%,证实了水分垂直运移的"记忆效应"。土壤质地(黏土/砂粒含量)对10-30 cm层空间变异的解释力达28%。
  2. 气候适应性:在温带和大陆性气候区表现最优(相关系数0.89),但在热带和极地地区因植被覆盖和积雪过程存在6-12%的高估。
  3. 事件响应能力:对2020年亚洲季风极端降水事件的模拟显示,表层(0-5 cm)水分增加量达0.25 m3/m3,而50-100 cm层仅响应0.07 m3/m3,符合物理渗透规律。

跨区域验证
在巴西半干旱区的独立验证中,SMRFR的均方根误差(0.0339 m3/m3)显著优于ERA5-Land(0.1286)和GLEAM(0.1681),证实了模型的强泛化能力。特别是在知识迁移场景下,对未参与训练的CEMADEM站点仍保持0.65的相关系数。

应用前景
该数据集支持多领域应用:

  • 农业:通过0-30 cm层水分监测优化灌溉策略
  • 水文:改进SWAT/VIC等模型的径流模拟
  • 气候:分析SM-气候反馈机制
    研究团队计划进一步开发1公里分辨率产品,并探索与宇宙射线中子传感器(COSMOS)的融合方案,以提升田间尺度应用的精度。

技术局限
当前模型对极端降雨的瞬时响应存在平滑效应,且在冻土区表现有待提升。未来将通过引入LSTM神经网络改进动态过程模拟,并整合SMAP/Sentinel-1数据增强高纬度地区监测能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号