基于Sentinel-2 B11波段时间序列与机器学习算法的土壤有机碳估算研究

【字体: 时间:2025年09月24日 来源:Remote Sensing Applications: Society and Environment 3.8

编辑推荐:

  为解决传统土壤有机碳(SOC)估算方法耗时费力、难以大范围应用,且单时相遥感观测难以捕捉SOC复杂动态的问题,研究人员开展了一项利用Sentinel-2卫星B11(SWIR)波段时间序列影像,结合PCA/ICA变换提取时序特征,并应用多种机器学习算法(RF, GBRT, XGBoost, LightGBM)进行SOC估算的研究。结果表明,结合时序特征与遗传算法(GA)特征选择的XGBoost模型取得了最佳精度(R2=0.891),显著提升了估算准确性。该研究为仅依靠遥感数据实现高精度、大范围的SOC监测提供了有效技术方案,对农业可持续发展和气候变化研究具有重要意义。

  

土壤,这颗蓝色星球肌肤的有机组成部分,其健康程度直接关系到人类的粮食安全与全球的气候变化。土壤有机碳(SOC)是衡量土壤肥力的核心指标之一,它如同土壤的“血液”,对增强养分吸收、提高保水能力、改善土壤结构、减少水土流失至关重要。然而,传统测量SOC的方法依赖于野外采样和实验室分析,不仅过程繁琐、成本高昂,更难以应对大范围、实时监测的需求。近二十年来,随着遥感(RS)技术的兴起,利用卫星影像估算SOC成为了研究热点。但遗憾的是,大多数研究的估算精度难以突破80%的瓶颈。其核心挑战在于,SOC的形成与变化是一个极其复杂的过程,受多种因素影响,而传统从遥感图像中提取的特征(如反射波段或光谱指数)往往基于单一时相的观测,难以充分捕捉这种复杂性,导致模型“看不清”也“说不准”。

正是在这样的背景下,来自德黑兰大学的研究团队Mehdi Golkar Amoli、Mahdi Hasanlou等人独辟蹊径,将目光投向了“时间”维度。他们创新性地提出,利用对SOC极为敏感的光谱波段——Sentinel-2卫星的B11(短波红外SWIR,中心波长约1610 nm)——的时间序列影像,或许能揭开SOC动态变化的神秘面纱。他们的研究成果《Estimating soil organic carbon using time series Band 11 (SWIR) of multispectral Sentinel-2 satellite images and machine learning algorithms》成功发表在《Remote Sensing Applications: Society and Environment》上,为高精度SOC估算提供了一条全新的技术路径。

为了攻克这一难题,研究人员巧妙地设计并融合了多项关键技术。首先,他们于2019年夏季在伊朗萨南达季市102平方公里的研究区内,采用约束拉丁超立方采样(CLHS)方法采集了91个0-10 cm深度的土壤样本,并利用Walkley-Black方法测定其SOC含量。遥感数据方面,他们主要依赖Sentinel-2卫星影像:一是利用谷歌地球引擎(GEE)平台生成了2019年夏季所有可用影像的中值合成图,从中提取了13个地表反射波段和6个植被与土壤光谱指数(如NDVI, EVI, SAVI, NDMI, GVMI, BSI)共18个特征;二是重点收集了土壤采样期间(2019年6月23日至9月28日)的20景B11波段时间序列影像。核心创新在于对B11时间序列进行了高级特征提取,分别应用主成分分析(PCA)和独立成分分析(ICA)两种降维变换,从中共衍生出10个新的时序特征(5个主成分PC和5个独立成分IC,其中2个根据峰度最高值额外选取)。在建模阶段,他们采用了四种先进的机器学习算法(随机森林RF、梯度提升回归树GBRT、极限梯度提升XGBoost和轻量梯度提升机LightGBM),并设计了四个渐进式的实验场景(S#1至S#4)进行对比:S#1仅使用中值合成图特征;S#2在S#1基础上引入遗传算法(GA)进行特征选择;S#3结合了中值合成图特征和全部10个时序特征;S#4则在S#3基础上再次应用GA进行特征选择。模型性能通过10折交叉验证,并采用决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)和相对分析误差(RPD)等指标进行全面评估。

研究结果丰富且极具说服力。3.1. 土壤有机碳含量的描述性分析表明,研究区SOC含量范围在0.74%至2.42%之间,均值为1.59%,标准差为0.43%,整体肥力状况良好。概率分布函数(PDF)显示SOC数据呈双峰分布,峰值分别出现在1.4%和1.9%,暗示该地区可能存在不同的碳源或过程(如自然植被与人为农业活动)。3.2. 超参数调优为不同场景下的模型选择了最优参数组合,为获得最佳性能奠定了基础。3.3. 场景一(S#1)的结果作为基线,仅使用中值合成图特征时,四种算法的最佳R2在0.7492(LightGBM)至0.7416(XGBoost)之间,RPD约为2,表明模型已具备较好的定量预测能力。3.4. 场景二(S#2)在引入GA特征选择后,性能显著提升。GA从18个特征中筛选出8个关键特征(B1, B2, B5, B6, B9, B11, B12, EVI),这些特征集中在蓝光、红边和SWIR区域。XGBoost和GBRT算法表现最佳,R2分别达到0.8211和0.8154,相比S#1平均提升约0.07。3.5. 场景三(S#3)的效果最为惊人,当加入全部10个B11时序特征后,模型精度实现了巨大飞跃,最佳R2达到0.8516(LightGBM),相比S#1平均提升约0.11,RMSE降低约0.07,RPD提升约0.6,充分证明了时序特征蕴含的巨大价值。3.6. 场景四(S#4)是集大成的最终方案,GA从全部28个特征中精选出20个,其中包含了80%(8个)的时序特征。在此最优特征组合下,XGBoost算法取得了前所未有的佳绩,R2高达0.891,RMSE低至0.037,RPD达到了3.34的优秀水平;GBRT和LightGBM也分别达到0.8764和0.87。这表明“时序特征提取”与“智能特征选择”的双重策略是成功的关键。通过置换重要性分析进一步发现,在S#4中,PCA衍生特征的重要性最高(平均12.05%),是原始光谱波段(7.1%)的近两倍,再次凸显了从时间序列中挖掘高阶特征的优势。最终生成的高空间分辨率SOC分布图清晰展示了研究区内SOC的空间变异情况。

综上所述,本研究成功论证了仅依靠Sentinel-2遥感影像数据即可实现高精度SOC估算的可行性。其核心结论在于:利用PCA和ICA对Sentinel-2 B11波段时间序列进行特征提取,能够有效地从动态变化中捕获与SOC相关的关键信息,生成的高阶时序特征是提升模型精度的决定性因素,平均可带来约11%的精度提升(R2)。进一步结合遗传算法(GA)进行特征选择,能够剔除冗余信息、缓解多重共线性,从而再贡献约5%的精度提升。在机器学习算法中,基于 boosting 的集成算法(XGBoost, GBRT, LightGBM)整体表现优于基于 bagging 的随机森林(RF),其中XGBoost在最优场景下的性能最为卓越。本研究开发的技术框架为大规模、高精度、低成本的SOC动态监测提供了强有力的工具,不仅对指导精准农业实践、评估土壤固碳潜力具有重要意义,也为利用遥感技术应对全球气候变化挑战提供了重要的科学依据和技术支撑。未来的研究可进一步探索更优的时序窗口长度、更先进的特征提取算法,并致力于解决低SOC浓度样本预测精度不足的问题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号