编辑推荐:
为解决现有模型和再分析数据在土壤温度(ST)模拟中因物理过程和参数化方案限制存在较大偏差的问题,研究人员利用随机森林(RF)方法开展三江源地区多层 ST 数据集构建研究,结果表明 RFST 数据集精度优于 ERA5 和 CRA40,为冻土区相关研究提供更准确数据支撑。
在全球气候变暖的大背景下,青藏高原作为 “亚洲水塔” 和气候变化的敏感区,其土壤温度(Soil Temperature, ST)的变化深刻影响着区域气候、生态和水文过程。然而,传统数值模型和再分析数据(如 ERA5、CRA40)由于物理过程简化和参数化方案的局限,在模拟青藏高原核心区域 —— 三江源地区的土壤温度时存在显著偏差,尤其是对土壤低温的低估问题突出,这直接导致冻土分布评估、碳循环模拟等研究的准确性受损。例如,已有研究表明,传统模型对三江源地区土壤温度的均方根误差(RMSE)高达 4-8°C,且无法准确刻画土壤冻融周期和冻结深度的变化趋势,这对于理解冻土退化、碳释放等关键科学问题形成了阻碍。
为填补这一研究空白,中国科学院西北生态环境资源研究院(State Key Laboratory of Cryospheric Science and Frozen Soil Engineering, Northwest Institute of Eco-Environment and Resources, Chinese Academy of Sciences)联合中国科学院大学等机构的研究人员,开展了基于机器学习的高精度土壤温度数据集构建研究。研究团队以三江源地区 23 个气象站的 0-320 cm 分层土壤温度观测数据为基础,融合气象变量(气温、降水、风速)、地表覆盖(归一化植被指数 NDVI、积雪日数 SCD)、土壤物理性质(容重、砂粒 / 粉粒 / 黏粒含量等)及地形数据(DEM),利用随机森林算法(Random Forest, RF)开发了新型土壤温度数据集 RFST。该研究成果发表在《Scientific Data》,为冻土区地球系统建模提供了关键基础数据。
研究采用的核心技术方法包括:
- 随机森林建模:利用 RF 算法的非线性拟合能力,构建土壤温度与多源影响因子的映射关系,通过 4 折交叉验证优化模型参数,避免过拟合。
- 多源数据融合:整合 CMFD 气象强迫数据(0.1°×0.1° 分辨率)、GIMMS NDVI 植被数据、AVHRR 积雪产品及土壤物理性质数据集,形成多维度特征变量。
- 分层验证与对比:基于玛曲和那曲土壤观测网络、6 个独立气象站,采用 Nash-Sutcliffe 效率系数(NSE)、Kling-Gupta 效率系数(KGE)、RMSE 和偏差(Bias)等指标,对比 RFST 与 ERA5、CRA40 的模拟性能。
研究结果
1. 数据集基本特征与精度验证
RFST 提供了 1982-2015 年三江源地区 0.01°×0.01° 空间分辨率的 9 层(0、5、10、15、20、40、80、160、320 cm)月尺度土壤温度数据。验证结果显示,RFST 在所有深度的 NSE 均超过 0.7,其中表层(0-20 cm)NSE 达 0.85 以上,RMSE 仅 1-2°C,显著优于 ERA5(RMSE 4-8°C)和 CRA40。在冻土敏感区域(如玉树、曲麻莱),RFST 对深层土壤温度(160-320 cm)的模拟误差较传统模型降低 60%-80%。
2. 对土壤冻融过程的刻画能力
与再分析数据相比,RFST 更准确地捕捉了土壤冻结起始时间、融化周期和冻结深度的变化。例如,RFST 计算的地表冻结指数(Freezing Index)和融化指数(Thawing Index)与观测值的偏差仅为 ±200 °C?d,而 ERA5 和 CRA40 的偏差超过 ±1000 °C?d。此外,RFST 揭示三江源地区季节性冻土最大冻结深度呈显著减小趋势,冻结周期缩短,与近年来冻土退化的观测结论一致。
3. 与再分析数据的对比优势
ERA5 和 CRA40 普遍存在 “冷偏差”,对土壤温度的低估导致冻土范围模拟偏大。RFST 通过机器学习修正了这一偏差,其表层土壤温度趋势与观测值一致(0.83°C / 十年),而 CRA40 仅为 0.43°C / 十年。在深层土壤(如 320 cm),RFST 的温度模拟更依赖地形(DEM)和土壤属性(SC),其解释度超过 50%,反映了物理过程在深层土壤中的主导作用。
研究结论与意义
本研究构建的 RFST 数据集突破了传统数值模型的局限性,为三江源地区冻土退化监测、碳循环模拟和气候预测提供了高精度基础数据。其核心意义体现在:
- 冻土研究:修正了传统模型对冻土分布和退化速率的高估,为评估冻土区碳释放风险提供可靠依据。
- 气候模拟:提高了陆 - 气耦合模型中土壤热通量的计算精度,可优化区域气候模型对降水、地表温度的预测。
- 生态与水文应用:准确刻画土壤水热过程,为植被分布模型、径流预测和水资源管理提供支撑。
该研究首次将随机森林算法应用于青藏高原多层土壤温度建模,展示了机器学习在复杂地理环境中的强大适应性,为地球系统科学研究提供了新的数据范式。未来,RFST 数据集可进一步整合卫星遥感和无人机观测,提升时空分辨率,推动冻土区气候变化研究的精细化发展。