编辑推荐:
为解决青藏高原(QTP)容重(BD)数据稀缺及现有数据精度不足的问题,研究人员开展了利用土壤传递函数(PTFs)和机器学习技术预测并生成 QTP 地区 90m 分辨率 BD 网格数据集的研究。结果显示该数据集有效捕捉 BD 空间异质性,精度较高,为区域生态研究等提供科学依据。
青藏高原,这片被誉为 “世界屋脊” 和 “地球第三极” 的神奇土地,拥有独特的地质风貌、寒冷的气候条件以及脆弱敏感的生态系统,在全球气候变化和生态研究领域占据着举足轻重的地位。土壤容重(Bulk Density,BD)作为土壤科学与生态学中极为关键的基础物理参数,其重要性不言而喻。它不仅是评估土壤压实程度的重要指标,更是精确量化土壤碳、氮等关键元素储量的核心变量 ,在模拟土壤水分动态、气体流动、根系分布以及评估土壤健康状况等方面发挥着不可替代的作用。
然而,想要获取青藏高原地区准确的 BD 数据却困难重重。由于该地区地域广袤、地形复杂多变,传统直接测量 BD 的方法不仅需要耗费大量的人力、物力和时间,而且在实际操作过程中面临诸多挑战。目前,现有的 BD 数据在青藏高原地区覆盖范围极为有限,许多研究不得不依赖全球土壤数据库,如 SoilGrids,但这些数据库在该地区的观测数据同样十分稀疏,直接应用这些数据产品往往会产生较大误差,严重制约了区域生态和气候相关研究的准确性和可靠性。因此,开发专门适用于青藏高原地区的 BD 数据产品迫在眉睫,这对于提升生态和气候研究水平、精准量化碳库及其变化、为区域生态修复、环境保护以及可持续发展战略的制定提供坚实的科学依据具有重要意义。
为攻克这一难题,中国科学院南京土壤研究所(State Key Laboratory of Soil and Sustainable Agriculture, Institute of Soil Science, Chinese Academy of Sciences )等机构的研究人员积极开展研究。他们整合土壤传递函数(pedotransfer functions,PTFs)和机器学习技术,成功预测并生成了青藏高原地区 90m 分辨率的 BD 网格数据集。这一成果有效捕捉了该地区 BD 的空间异质性,经过严格验证,其精度较高,为相关研究提供了有力的数据支持,研究成果发表在《Scientific Data》上。
在研究过程中,研究人员主要运用了以下关键技术方法:一是开展广泛的土壤调查活动,在 2012 - 2020 年间对青藏高原 835 个土壤剖面进行研究,采集 3588 个土壤样本并测量相关属性 ;二是对比评估 4 种已发表 PTFs,并利用多元回归和机器学习技术开发新 PTFs,以筛选最优模型预测 BD;三是借助数字土壤制图(Digital Soil Mapping,DSM)技术,选取多种环境协变量,运用分位数回归森林(Quantile Regression Forest,QRF)模型进行空间预测与不确定性分析 。
研究结果
- 土壤数据处理:研究人员在青藏高原进行了大规模的土壤调查,建立了 1×3m 的样地,挖掘土壤剖面至 120cm 或新基岩处。共调查 835 个土壤剖面,代表了所有土壤类型,并采集了 3588 个土壤样本,其中 1404 个样本测量了 BD 数据。土壤样本经过风干、去除根系和砾石、过筛等处理后,测定 pH、颗粒大小分布、土壤质地、土壤有机碳(Soil Organic Carbon,SOC)含量等多项属性。由于采样深度非等距,运用等面积样条法将样本插值到 0 - 5、5 - 15、15 - 30、30 - 60、60 - 100 和 100 - 200cm 六个深度区间,发现 BD 数据从表层土壤到下层土壤逐渐增加,表层土壤变化最大12。
- PTFs 评估与开发:评估了 4 种已发表的 PTFs,利用青藏高原数据对其系数进行重新校准。同时,采用多元线性回归(Multiple Linear Regression,MLR)和机器学习模型(随机森林 Random Forest,RF、支持向量机 Support Vector Machines,SVM、梯度提升机 Gradient Boosting Machines,GBM )开发新 PTFs。结果显示,新开发的基于 RF 模型的 PTF 表现最佳,其决定系数(R2)达到 0.70,均方根误差(RMSE)低至 0.16 ,因此被用于预测青藏高原缺失的 BD 数据348。
- 数字土壤制图:依据土壤形成因素选取多种环境协变量,包括地形、气候、生物和土壤母质相关数据。地形数据来自航天飞机雷达地形测绘使命(Shuttle Radar Topographic Mission )数字高程模型(Digital Elevation Model,DEM);土壤母质相关数据通过计算地表反射率衍生指标获取;气候数据来源于多卫星数据集;生物数据则从全球数据集和 Landsat 8 波段数据中提取。所有环境协变量经过重投影和必要的重采样处理后,运用 QRF 模型进行空间预测和不确定性分析。研究发现,BD 预测均值在青藏高原东西部差异明显,西部预测值较高,且随土壤深度增加而增大。高不确定性预测分布与高预测值区域密切相关,在青藏高原东南部和北部,5% 和 95% 条件分位数估计值较低,与平均预测值相似569。
- 模型验证与对比:通过递归特征消除(Recursive Feature Elimination,RFE)方法选择相关特征变量,利用 10 折交叉验证评估模型准确性。结果表明,使用 PTF 显著提高了 DSM 的准确性,基于 PTF 的 DSM 的 R2更高,RMSE 更低,平均误差(Mean Error,ME)接近零,表明预测偏差较小。与 SoilGrids250m 和中国土壤网格数据相比,该研究生成的 BD 数据产品预测值更接近实际测量值,进一步验证了其可靠性71011。
研究结论与讨论
本研究成功生成了青藏高原地区高分辨率的 BD 网格数据集,为区域生态和气候研究提供了重要的数据支撑。通过对比已发表 PTFs 和开发新 PTFs,筛选出最优模型提高了 BD 预测的准确性。同时,将 PTFs 与 DSM 技术相结合,有效提升了土壤属性空间预测的精度和可靠性。该数据集和研究方法可广泛应用于元素存储估算、土壤水分传输建模等领域,为区域生态修复、环境保护和可持续发展战略制定提供了坚实的科学依据。然而,研究也存在一定局限性,例如在复杂环境条件下,PTFs 的性能可能受到影响,未来还需进一步改进和完善模型,以更好地适应不同生态环境的需求。