
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于随机森林的多源数据融合全球多层土壤水分数据集SMRFR的构建与应用研究
【字体: 大 中 小 】 时间:2025年07月10日 来源:Scientific Data 5.8
编辑推荐:
本研究创新性地利用随机森林(RF)算法整合多源数据,构建了全球9公里分辨率、覆盖5个土层(0-100 cm)的日尺度土壤水分(SM)数据集SMRFR(2000-2023)。通过扩展三重共定位(ETC)方法筛选高质量训练站点,结合ERA5-Land再分析数据和MODIS植被指数等21类预测因子,实现了0.0339 m3/m3的验证集无偏均方根误差(ubRMSE),显著提升了深层根区土壤水分(RZSM)的监测能力,为农业水文模型和气候变化研究提供了高精度数据支撑。
背景与意义
土壤水分(SM)作为陆地-大气界面水碳能量交换的关键变量,对径流、蒸散发等水文过程具有重要调控作用。现有监测手段存在明显局限:原位观测网络(如ISMN)空间代表性不足;卫星遥感(如SMOS/SMAP)仅能获取表层(~5 cm)数据;陆面模型(LSM)则受参数化不确定性的影响。本研究提出的SMRFR数据集通过机器学习方法突破了这些技术瓶颈。
研究方法创新
研究团队采用严格的质量控制流程,从国际土壤水分网络(ISMN)筛选出433个代表性站点作为训练数据,并创新性地引入扩展三重共定位(ETC)技术进行数据质量评估。预测因子体系包含ERA5-Land再分析数据、MODIS植被指数(NDVI/EVI)、地形特征和土壤属性等21类变量。通过五折交叉验证优化随机森林(RF)超参数(n_estimator=1100, max_depth=560),构建了分层预测模型。
关键发现
跨区域验证
在巴西半干旱区的独立验证中,SMRFR的均方根误差(0.0339 m3/m3)显著优于ERA5-Land(0.1286)和GLEAM(0.1681),证实了模型的强泛化能力。特别是在知识迁移场景下,对未参与训练的CEMADEM站点仍保持0.65的相关系数。
应用前景
该数据集支持多领域应用:
技术局限
当前模型对极端降雨的瞬时响应存在平滑效应,且在冻土区表现有待提升。未来将通过引入LSTM神经网络改进动态过程模拟,并整合SMAP/Sentinel-1数据增强高纬度地区监测能力。
生物通微信公众号
知名企业招聘