基于可见-近红外光谱与自适应Stacking集成学习的黑土土壤有机质含量高精度反演模型研究及其在精准农业中的应用
【字体:
大
中
小
】
时间:2025年10月12日
来源:Italian Journal of Agronomy 2.1
编辑推荐:
本研究针对东北黑土区土壤有机质(SOM)空间异质性强、传统Vis-NIR光谱模型预测精度不足的问题,开发了一种融合FD与MSC预处理、CARS和XGBoost特征选择及动态权重分配策略的自适应Stacking集成学习框架。结果表明,FD+CARS+Stacking模型预测精度最高(R2=0.8364,RMSE=2.2472),为黑土区SOM快速无损监测及精准农业管理提供了可靠技术支撑。
东北黑土作为中国最重要的粮食生产基地,其土壤有机质(Soil Organic Matter, SOM)含量是衡量土壤肥力的核心指标。然而,由于长期高强度耕作和自然风化作用,黑土区SOM空间分布呈现高度异质性,给传统化学测量方法带来巨大挑战。可见-近红外(Visible and Near-Infrared, Vis-NIR)光谱技术虽能实现快速、无损的土壤检测,但受限于光谱噪声、土壤变异性及传统建模方法的局限性,其预测精度往往难以满足精准农业的需求。特别是对于有机质含量波动较大(2.55–31.05 g/kg)的黑土,单一模型如偏最小二乘回归(PLSR)、支持向量回归(SVR)或XGBoost在处理高维光谱数据时,常出现过拟合或欠拟合,且预处理方法如一阶导数(First Derivative, FD)和多元散射校正(Multiplicative Scatter Correction, MSC)的效果不稳定。因此,开发一种能够自适应不同SOM范围、整合多模型优势的集成学习框架,成为提高黑土SOM预测精度的关键。
针对这一难题,本研究以吉林省农安县291份黑土样品为研究对象,提出了一种新颖的自适应Stacking集成学习模型,结合FD与MSC预处理、竞争性自适应重加权采样(Competitive Adaptive Reweighted Sampling, CARS)和XGBoost特征选择方法,成功实现了SOM的高精度反演。相关研究成果发表在《Italian Journal of Agronomy》,为黑土区土壤健康监测和精准施肥提供了可靠的理论与技术支撑。
在研究过程中,作者主要采用了以下关键技术方法:首先,利用FieldSpec 4光谱仪获取实验室条件下350–2500 nm范围的高分辨率Vis-NIR光谱数据,并经异常值剔除和数学变换(FD、MSC)预处理;其次,应用CARS和XGBoost算法筛选与SOM高度相关的特征波长(如523 nm、2221 nm等);最后,构建以PLSR、SVR和XGBoost为基学习器,线性回归(LR)为元学习器的Stacking集成模型,并引入动态权重分配策略以适应高(>20 g/kg)、低(<20 g/kg)SOM含量的不同光谱响应。
3.1. 异常值剔除与样本统计
通过PLSR残差分析从308个初始样本中剔除17个异常值,最终保留291个样本。按7:3比例随机划分为校准集(203样本)与预测集(88样本),SOM含量范围2.55–31.05 g/kg,统计特征在两组间均衡,为模型构建奠定了可靠数据基础。
3.2. 光谱特征分析
原始光谱在1400 nm、1900 nm和2200 nm处出现明显吸收谷,与土壤中水分和羟基矿物密切相关。FD变换有效增强了523 nm附近与有机质相关的光谱特征,而MSC则显著减少了散射效应,使2221 nm处黏土矿物相关吸收特征更为突出。
3.3. 光谱特征波段选择
CARS与XGBoost分别将光谱维度降至原始波段数的9.35%–30.55%,显著减少了数据冗余。两者均识别出400 nm、900 nm、1400 nm、1700 nm和2200 nm等SOM敏感波段,其中CARS侧重于均匀分布波段,而XGBoost则集中于特定区间。
3.4. 预处理光谱的Pearson相关性分析
FD预处理后在523 nm处与SOM相关性最高(r=-0.7345, p<0.01),MSC则在2221 nm处达到最大正相关(r=0.7502, p<0.01)。CARS与XGBoost筛选的波段均保留了这些高相关性波长,验证了特征选择的有效性。
3.5. 建模与精度评价
3.5.1. PLSR模型建模与分析
FD+CARS+PLSR组合表现最佳,预测集R2=0.8272,RMSE=2.3098,显著优于其他预处理组合,且预测值接近1:1线,偏差较小。
3.5.2. SVR模型建模与分析
FD+CARS+SVR在预测集达到R2=0.8210,RMSE=2.3511,显示出良好的泛化能力,而MSC+XGBoost+SVR则出现较大误差,表明预处理方法需与模型特性匹配。
3.5.3. XGBoost模型建模与分析
XGBoost对原始光谱表现较差(R2p≈0.58),但经FD或MSC预处理后性能显著提升,其中FD+CARS+XGBoost校准集R2高达0.9439,但预测集R2仅为0.7537,存在明显过拟合。
3.5.4. Stacking模型建模与分析
FD+CARS+Stacking模型预测精度最高(R2=0.8364, RMSE=2.2472),且稳定性优于所有单一模型。动态权重分配策略使基学习器在不同SOM范围内贡献度差异化,如FD+CARS+Stacking中PLSR权重占54.22%,而FD+XGBoost+Stacking中XGBoost权重达53.18%,充分体现了集成学习的自适应优势。
3.5.5. 各模型综合评估
Stacking模型整体表现最优(平均R2p=0.7961),其次为SVR(0.7756)、PLSR(0.7622)和XGBoost(0.6824)。FD预处理结合CARS特征选择在所有模型中都取得最佳效果,证实了其在黑土SOM反演中的普适性。
本研究通过系统比较多种预处理、特征选择与建模方法,成功构建了针对黑土SOM预测的自适应Stacking集成学习框架。该框架不仅显著提升了预测精度(R2p=0.8364),还解决了高维光谱数据中噪声干扰、波段冗余及模型泛化能力不足等问题。更重要的是,研究所识别出的关键波长(如523 nm、2221 nm)为今后开发专用光谱传感器提供了理论依据。在实践层面,该模型可集成至车载或机载光谱仪,实现田间SOM的实时、无损检测,为变量施肥、土壤墒情监测及碳汇评估提供核心技术支撑。此外,该方法的通用性表明其有望推广至其他土壤属性(如氮、磷含量)及不同土壤类型(如红壤、砂壤)的反演研究中,推动精准农业与智慧土壤管理的快速发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号