在半干旱农业地区,利用多模态遥感数据融合和机器学习算法进行表层土壤湿度预测

《Science of Remote Sensing》:Surface Soil Moisture Prediction Using Multimodal Remote Sensing Data Fusion and Machine Learning Algorithms in Semi-Arid Agricultural Region

【字体: 时间:2025年07月17日 来源:Science of Remote Sensing 5.7

编辑推荐:

  表层土壤湿度(SSM)的精准空间和时间监测是半干旱地区农业决策的关键限制因素。本研究利用Sentinel-1 C波段合成孔径雷达(SAR)和HLS( harmonized Landsat Sentinel)数据,结合玉米、小麦、高粱和休闲耕作等作物不同生长阶段(播种、发育、中期和晚期)的实地土壤湿度测量数据(0-30厘米),构建了10米分辨率的SSM预测模型。通过支持向量机(SVM)、随机森林(RF)、梯度提升机(GBM)和K最近邻(KNN)四种机器学习算法的对比,发现GBM模型在多源数据融合(SAR+光学)下表现最优,R2达0.72,RMSE仅0.025 cm3/cm3,RRMSE为11.9%。植被指数NDVI、EVI和雷达参数(VV/VH差值、入射角)是主要驱动因子,而土壤质地(黏土、壤土、砂土)的影响较弱。模型在作物生长中期(小麦)预测精度较低,可能与冠层密度和雷达信号衰减有关。研究验证了多源遥感数据结合优化机器学习算法在半干旱农业区SSM监测中的可行性,为精准灌溉和农业水资源管理提供了新工具。

  土壤湿度是影响半干旱地区农业决策的关键变量之一,它对于作物生长、灌溉规划以及水资源管理具有重要意义。然而,许多现有的土壤湿度监测产品由于其相对粗糙的空间分辨率,难以在田间尺度上提供有效的支持。本研究旨在利用合成孔径雷达(SAR)Sentinel-1 C波段数据和统一的Landsat-Sentinel(HLS)数据集,结合实地土壤湿度测量数据,预测更精细尺度(10米)的表层土壤湿度(SSM)。研究选取了位于美国科罗拉多州阿克罗顿(Akron)的18个农业田块,包括小麦、玉米、小米和休耕等作物类型,以分析不同作物类型和生长阶段下SSM的变化特征。通过比较支持向量机(SVM)、随机森林(RF)、梯度提升树(GBM)和K近邻(KNN)等四种机器学习(ML)模型的性能,我们发现GBM模型在使用多源数据时表现出最高的预测准确性,其R2值为0.72,RMSE为0.025 cm3/cm3,RRMSE为11.9%。这一结果表明,GBM模型在半干旱地区的异质作物田块和不同作物生长阶段中具有广泛的应用前景,能够为提升农业用水管理与水文模型提供有力工具。

土壤湿度的动态变化对于农业生态系统至关重要,尤其是在降水不规律的半干旱地区。在这些区域,土壤湿度的变化可能直接影响作物产量,因为水分是植物吸收养分和维持生长的必要条件。如果缺乏精确的土壤湿度评估,农民可能面临严重的产量损失,这可能是由于干旱或过度灌溉等极端条件导致的土壤结构和肥力的破坏。因此,准确的土壤湿度监测对于提高农业生产力和水资源利用效率具有重要意义。

本研究的创新点在于其整合了多种数据源,包括Sentinel-1 SAR数据和HLS数据,以提高SSM预测的精度。Sentinel-1 SAR数据因其穿透云层和植被的能力,可以获取较为准确的土壤湿度信息。而HLS数据则提供了高分辨率的光学影像,能够反映植被指数和地表特征,这对于理解土壤湿度的变化具有辅助作用。通过结合这两种数据源,我们能够更全面地捕捉土壤湿度的时空变化特征,并评估其在不同作物生长阶段的适用性。

在本研究中,我们利用了多种机器学习模型,以探索其在预测SSM方面的表现。其中,随机森林(RF)是一种基于决策树的集成学习方法,它通过构建多个决策树并综合其结果来提高预测的稳定性。支持向量机(SVM)则基于统计学习理论,适用于分类、回归和时间序列预测。梯度提升树(GBM)通过迭代优化和模型叠加的方式,逐步减少预测误差,从而提高模型的准确性。K近邻(KNN)则是一种基于实例的学习方法,它通过计算样本点之间的距离,利用邻居的平均值或多数投票来预测目标变量。这些模型在预测SSM时均表现出不同程度的准确性,但在不同数据源和特征组合下其性能差异显著。

为了评估模型的性能,我们采用了多种指标,包括R2、RMSE和RRMSE。这些指标能够衡量模型在训练和测试数据集上的拟合度和预测误差。在仅使用Sentinel-1 SAR数据时,GBM模型在测试数据集上的表现优于其他模型,其R2值为0.49,RMSE为0.033 cm3/cm3,RRMSE为16.0%。然而,当我们将HLS数据的植被指数(如NDVI和EVI)纳入模型时,GBM的性能显著提升,R2值达到0.72,RMSE降低至0.025 cm3/cm3,RRMSE进一步降至11.9%。这一结果表明,整合多源数据能够显著提高SSM预测的准确性。

此外,我们还通过特征选择和模型优化来提高预测性能。在特征选择过程中,我们发现某些变量对SSM预测具有显著影响,例如入射角、GLCM特征(如GLCM10_VH和GLCM8_VV)以及植被指数。这些变量在不同作物生长阶段和土地覆盖类型中表现出不同的重要性。例如,在干作物土地中,NDVI、EVI和入射角是影响SSM变化的关键变量。然而,在不同的作物生长阶段,如小麦的中期生长阶段,模型的预测性能相对较弱,这可能是由于植被覆盖度较高,导致雷达信号的散射和衰减,从而影响SSM的估计。

本研究还探讨了模型的时空泛化能力。我们通过训练2020-2021年的数据,并在2022年的数据上进行测试,发现模型在时间上的泛化能力较好,R2值为0.55,RMSE为0.02 cm3/cm3,RRMSE为8.8%。此外,我们还采用了“leave-one-field-out”交叉验证方法,以评估模型在不同田块中的表现。结果显示,模型在不同田块中的平均R2值为0.51,平均RMSE为0.033 cm3/cm3,平均RRMSE为14.89%。这些结果表明,模型在不同田块中表现稳定,具有一定的时空泛化能力。

为了进一步提高模型的准确性,我们还探讨了不同作物生长阶段对SSM预测的影响。结果显示,GBM模型在种植期和晚季表现良好,但在小麦的中期生长阶段表现较差。这可能是由于在小麦的中期生长阶段,植被覆盖度较高,导致雷达信号的散射和衰减,从而影响SSM的估计。相比之下,玉米和小米在各个生长阶段的预测误差均控制在0.03 cm3/cm3以内,这表明模型在这些作物上的适用性较强。此外,对于休耕土地,由于样本点较少,未能观察到明显的预测模式,未来研究应扩大样本量以提高模型的适用性。

在模型解释方面,我们使用了SHAP分析,以评估各个输入特征对SSM预测的影响。SHAP分析表明,入射角是影响SSM预测最重要的变量之一,其平均变化值为0.017 cm3/cm3。GLCM特征(如GLCM10_VH和GLCM8_VV)也表现出较高的重要性,特别是在不同作物生长阶段中,它们对SSM的预测具有一定的影响。植被指数(如NDVI和EVI)则在不同作物生长阶段中表现出复杂的关系,这可能是由于植被覆盖度和土壤湿度之间的相互作用。因此,未来的研究应进一步探讨这些变量在不同环境条件下的重要性,以提高模型的适用性和准确性。

尽管本研究取得了显著成果,但仍存在一些局限性。首先,样本量较小可能限制了模型的训练效果,特别是在不同作物生长阶段的预测中。为了克服这一问题,未来的研究可以考虑使用迁移学习等方法,以提高模型在不同环境条件下的泛化能力。其次,Sentinel-1 C波段数据对植被覆盖度较高的区域敏感度较低,这可能影响其在高植被覆盖度地区的预测性能。因此,未来的研究可以考虑使用L波段SAR数据,如NASA的NISAR和ALOS-2 PALSAR,这些数据具有更强的穿透能力,能够在植被覆盖度较高的区域提供更准确的土壤湿度信息。

最后,本研究强调了多源数据融合在提高SSM预测精度中的重要性。通过结合SAR和光学数据,我们能够更全面地理解土壤湿度的变化,从而为农业水资源管理和水文建模提供更可靠的数据支持。此外,研究还指出,土壤性质(如黏土、粉砂和沙的含量)在预测SSM中的作用相对较小,这可能与研究区域的土壤条件和植被覆盖度有关。因此,未来的研究可以进一步探讨土壤性质在不同作物生长阶段和土地覆盖类型中的影响,以完善SSM预测模型。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号