利用多时相Sentinel数据和机器学习方法进行的高分辨率土壤有机质大尺度野外测绘
《Geomatica》:High-resolution field-scale mapping of Soil Organic Matter using multi-temporal Sentinel data and machine learning approach
【字体:
大
中
小
】
时间:2025年10月06日
来源:Geomatica CS1.2
编辑推荐:
土壤有机质(SOM)的高分辨率场尺度映射研究,采用Sentinel-2多时相光学影像和随机森林(RF)与XGBoost机器学习算法,通过交叉验证和不确定性分析,RF模型表现更优(R2=0.939,RMSE=0.166),SHAP分析揭示DVI、EVI等植被指数及NIR/SWIR波段关键作用,为精准农业提供可靠SOM预测框架。
土壤有机质(SOM)在农业和环境管理中具有重要作用,它不仅影响土壤肥力和结构,还对水土保持、养分循环以及碳固存等生态过程产生深远影响。随着精准农业和可持续土地管理需求的日益增长,如何在田间尺度上实现对SOM的高精度、高分辨率的制图成为研究热点。传统的实验室分析虽然在精度上具有优势,但其成本高、耗时长且难以实现大范围和高频次的监测。因此,利用遥感技术,特别是多时相卫星数据,进行数字土壤制图(DSM)成为一种新兴且高效的方法。本研究聚焦于利用Sentinel-2光学遥感数据进行田间尺度SOM预测,探索其在高分辨率土壤制图中的潜力,并比较两种主流机器学习算法——随机森林(Random Forest, RF)和极端梯度提升(Extreme Gradient Boosting, XGBoost)在SOM预测中的表现。
Sentinel-2卫星以其高空间分辨率(10米)和丰富的多光谱信息,成为DSM研究的重要数据来源。通过多时相数据的分析,可以捕捉到土壤与植被之间随时间变化的动态关系,从而提高预测的准确性。本研究采集了50个田间土壤样本,这些样本来自0-30厘米的土层,经过筛分处理后用于实验室分析,测定有机碳(OC)含量,并将其转换为有机质(OM)含量。实验区域位于摩洛哥的Tadla平原,属于重要的农业区,其地理坐标为32°17'38.1"N 6°33'51.6''W,海拔约为975米,年均降水量约为300毫米。这一区域的土壤特性为研究提供了理想的实验环境。
在遥感数据处理方面,研究采用了Google Earth Engine(GEE)平台进行多时相Sentinel-2数据的提取与预处理。所有图像均在下降轨道方向下采集,并通过计算每月无云图像的中值合成,生成了13个月的云清除数据集。研究选取了5个主要波段(蓝、绿、红、近红外、短波红外)以及7种遥感指数(如NDVI、SAVI、NDMI、BSI、IPVI、DVI、EVI)作为预测变量,共计156个变量。这些变量能够反映植被状况、土壤性质和水分含量等关键信息,为SOM预测提供了丰富的输入特征。
在方法论上,本研究将整个流程分为三个阶段:预测变量提取与特征选择、模型训练与评估、以及SOM的空间预测与不确定性分析。考虑到样本数量有限,研究采用了留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)策略,以最大化样本的利用率并确保模型评估的可靠性。在模型训练阶段,随机森林和极端梯度提升算法被用于SOM预测,其中随机森林表现出更优的性能,其决定系数(R2)为0.939,均方根误差(RMSE)为0.166,Lin’s Concordance Correlation Coefficient(LCCC)为0.897,而XGBoost的R2为0.885,RMSE为0.167,LCCC为0.903。尽管XGBoost的LCCC略高,但随机森林在整体预测能力上更为优越,尤其是在不确定性分析方面表现更为稳定。90%预测区间宽度(PIW 90)的计算结果显示,随机森林模型在空间上的预测一致性更高,表明其在田间尺度上具有更可靠的预测能力。
为了进一步理解模型预测结果的来源,研究还引入了SHAP(SHapley Additive exPlanations)分析方法。SHAP能够提供对模型特征重要性的解释,帮助研究人员识别哪些变量对SOM预测具有更大的影响。结果显示,DVI、EVI、BSI、B3波段和近红外波段是影响SOM预测的关键因素,而部分植被指数和水分敏感指数则具有次要贡献。这些结果表明,SOM的预测不仅依赖于植被状况,还受到土壤表面反射特性的影响。此外,SHAP分析还揭示了预测变量对模型输出的正负影响,为田间土壤管理提供了重要的参考依据。
在空间预测结果方面,随机森林模型预测的SOM含量范围为2.908%至4.167%,而XGBoost模型的预测范围则为3.095%至3.479%。所有预测结果均与实际观测值范围吻合,显示出模型的可靠性。从空间分布图来看,较高的SOM值通常出现在蓝色区域,而较低的值则出现在红色区域,这种模式与土壤有机质的分布特征相符。然而,两种模型在极端值的预测上存在差异,随机森林模型在预测范围上更为广泛,显示出其在处理复杂地形和多变环境下的优势。
不确定性分析是本研究的重要组成部分,通过计算标准差(SD)和90%预测区间宽度(PIW 90),研究揭示了不同模型在空间预测中的不确定性差异。随机森林模型的不确定性较低,其SD值范围为0.0179至0.2068,而XGBoost模型的不确定性较高,PIW 90值范围为0.3352至0.5054。这表明,在田间尺度上,随机森林模型的预测结果更加稳定,能够提供更可靠的土壤有机质分布图。尽管XGBoost在某些方面表现出色,但其在不确定性评估中显示出更大的波动性,这可能影响其在实际农业管理中的应用效果。
本研究还指出,Sentinel-2多时相数据在SOM预测中的优势在于其能够反映土壤与植被之间的动态变化。相较于以往的研究,本研究在SOM预测上的表现更为突出,例如Shafizadeh-Moghadam等人使用Sentinel-2数据预测SOM时,R2值仅为0.57,而Zhang等人仅达到0.47。这种性能的提升得益于本研究采用的田间尺度采样方法、多时相数据的综合分析以及SHAP解释方法的应用。此外,研究强调了图像采集时间对SOM预测的重要性,尤其是在年度末期的样本采集时间,能够更准确地反映土壤的季节性变化特征。
从机器学习模型的性能来看,随机森林和XGBoost均表现出较强的预测能力,但随机森林在整体性能上更优。这可能与其在处理非线性关系和高维数据方面的优势有关。随机森林通过构建多个决策树并综合其结果,不仅提高了预测精度,还有效减少了过拟合的风险。相比之下,XGBoost虽然在某些情况下能够提供更精确的预测,但其在处理小样本数据时的不确定性更高。此外,随机森林在特征选择过程中表现出更高的鲁棒性,能够自动筛选出最具影响力的变量,从而提高模型的效率和可解释性。
本研究还探讨了模型在实际农业管理中的应用价值。高分辨率的SOM地图能够帮助农民更精准地了解土壤的异质性,从而制定针对性的管理策略。例如,通过识别高有机质含量区域,农民可以优化施肥和灌溉方案,提高资源利用效率。同时,本研究提出的不确定性评估方法,能够为土壤管理提供更全面的信息,帮助农民评估预测结果的可靠性,从而做出更科学的决策。
尽管本研究取得了显著成果,但也存在一些局限性。首先,虽然随机森林和XGBoost被广泛应用于土壤预测,但它们通常被视为“黑箱”模型,缺乏透明度。为此,研究引入了SHAP分析,以增强模型的可解释性。然而,进一步的研究可以考虑结合其他解释方法,如LIME(Local Interpretable Model-agnostic Explanations)或部分依赖图,以更全面地理解特征之间的相互作用。其次,研究中的样本数量虽然足够支持田间尺度建模,但样本密度仍然有限,可能影响模型的泛化能力。未来的研究可以扩大样本数量,并采用多点位的采样策略,以提高模型的适用性和稳定性。
本研究的结果表明,利用Sentinel-2多时相光学数据进行田间尺度SOM预测是可行且有效的。高分辨率的土壤地图不仅有助于精准农业的发展,还为可持续土地管理提供了重要的数据支持。此外,本研究公开了所有数据和代码,确保了研究的可重复性和透明度,为后续研究提供了宝贵的资源。随着遥感技术和机器学习方法的不断发展,未来有望在更大范围内推广这种高精度的土壤制图方法,以支持更广泛的应用需求。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号