基于综合多维光谱指数和XGBoost驱动变换的东营市盐碱化可解释估算模型
《Geomatics, Natural Hazards and Risk》:Interpretable salinization estimation model for Dongying City based on integrated multi-dimensional spectral indices with XGBoost-driven transformations
【字体:
大
中
小
】
时间:2025年09月19日
来源:Geomatics, Natural Hazards and Risk 4.5
编辑推荐:
土壤盐渍化光谱监测模型研究基于山东东营地区,通过混合尺度变换(分数阶导数、小波变换)构建二维和三维光谱指数,结合CARS算法筛选敏感波段,并对比XGBoost、PLSR和CNN模型。结果显示:三维指数结合混合变换(如1.25阶分数导数)的XGBoost模型精度最优(R2=0.97),SHAP分析揭示盐响应机制及特征贡献。
在当前全球气候变暖和人类活动日益加剧的背景下,土壤盐碱化问题正变得越来越严重,对农业生产与可持续发展构成了严峻的挑战。为了解决这一问题,本文以山东省东营市为研究区域,探讨结合多尺度变换与高维光谱指数在模型反演中的有效性。研究过程中首先对光谱数据进行了变换处理,构建了混合变换方法,随后识别出敏感的光谱波段,并据此构建了二维和三维光谱指数。这些指数作为特征变量,用于构建三种模型:极端梯度提升树(XGBoost)、偏最小二乘回归(PLSR)和卷积神经网络(CNN)。通过SHAP可解释性分析对最优模型进行评估。研究结果表明,所提出的处理方法有效增强了波段的敏感性,提升了模型的准确性和泛化能力。在不同光谱波段上进行的指数操作能够增强光谱敏感性特征或在一定程度上抑制噪声影响。这些成果为优化光谱指数提供了理论依据,揭示了不同指数对盐碱化的响应机制及噪声抗干扰能力,推动了盐碱化监测向更精确、智能化和经济化的方向发展。
土壤盐碱化是指土壤表层盐分的累积,主要出现在全球干旱和半干旱地区,不包括沿海地区。其会导致农业生产力下降,严重制约地方农业发展,并对生态系统构成重大威胁。因此,对盐碱化的合理监测对于控制其扩散和促进地方农业发展至关重要。在2021年10月考察东营市黄河三角洲地区时,国家主席习近平强调了对盐碱地综合开发利用的战略意义,以确保国家粮食安全并实现粮食生产的自给自足。因此,对黄河三角洲地区进行大规模盐碱化监测变得尤为重要。精准监测盐碱地的分布及动态变化,有助于科学地利用和治理5000万公顷的盐碱地,为耐盐作物培育、生态修复和最优水资源分配提供关键的数据支持。通过拓展潜在的耕地资源储备,提升粮食生产能力,同时维持区域生态平衡,这一策略构成了实施国家“藏粮于地、藏粮于技”计划的关键措施,其在保障中国粮食安全方面发挥着不可替代的作用。
传统的盐碱化监测主要依赖于实验室化学分析方法,虽然这些方法在精度上表现良好,但其过程耗时且耗费大量人力,难以满足大规模、快速和高效监测的需求。高光谱数据具有连续波段信息的特点,可以提供关于地表物体的广泛光谱信息。随着高光谱技术的发展,利用高光谱技术检测地表信息已成为一种趋势。与传统方法相比,高光谱监测具有响应速度快、覆盖范围广等优势,满足了实时大规模监测的需求,为土壤盐碱度监测开辟了新的途径。然而,由于高光谱数据的高维性和波段间的强共线性,实现降维以减少光谱冗余并利用低维光谱信息准确估计土壤盐碱度仍然是当前研究中的一个关键挑战。
在过去十年中,国内外众多研究人员利用高光谱技术开展了关于土壤盐碱化的一系列研究。例如,Csillag等人(1993)在室内土壤光谱数据上应用了改进的主成分分析(PCA)方法,提取了能够有效表征土壤盐碱状态的波长区间,确定了550-770纳米、900-1030纳米、1270-1520纳米、1940-2150纳米、2150-2310纳米和2330-2400纳米等波段具有较高的盐碱度估计精度。Chernousenko等人(2011)证明,少量敏感的近红外波段可以粗略估计荔枝土壤中的离子。然而,这些研究主要依赖于统计方法对敏感光谱波段进行粗略估计,尚需进一步研究土壤盐碱度的响应机制及不同波长信息之间的关系。Chen等人(2023)通过分数阶导数构建了二维光谱指数,并利用相关系数筛选与土壤盐碱度相关的波长信息,其结果表明支持向量机(SVM)模型在银川平原土壤盐碱度估计中具有高精度。Zhang等人(2016)在不同数学变换下开发了18种模型,并选择最优模型,发现土壤调整植被指数(SAVI)线性模型表现最佳。Sun等人(2022)采用光谱变换和光谱指数对黄河下游河套灌区永济灌溉区的盐碱度进行反演,得出结论:光谱变换和指数均能提高不同土地类型中土壤盐碱度与光谱之间的相关性。
为了有效提取敏感波长,许多研究人员采用了分数阶导数(FOD)、连续小波变换(CWT)以及传统光谱变换方法。例如,S. Huang等人(2024)在应用17种数学变换后筛选出具有高绝对相关系数的敏感波长,并发现基于对数二阶导数的多元线性回归模型具有最佳的反演性能。Wang等人(2022)利用分数阶导数和集成学习算法计算了光谱变换数据的重要性,以识别对叶片含水量和叶绿素敏感的波长。X. H. Zhao等人(2024)使用竞争自适应重加权采样(CARS)算法将特征波长减少到26-276,有效实现了光谱数据的降维。小波变换能够突出问题的特定特征,关注信号细节以筛选特征波长。Zhou等人(2025)使用连续小波变换和相关系数方法选择与土壤有机碳相关的尺度,发现CWT26-CARS-PLSR模型具有最高的反演精度。Dong等人(2024)应用连续小波变换以不同尺度选择与油膜厚度相关的波长,从而有效估计油膜厚度。S. W. Zhang等人(2024)在土壤铜含量反演过程中结合了CWT和稳定性竞争自适应重加权算法(SCAR),有效地减少了光谱数据的维度,提高了反演精度。
在模型选择方面,国内外学者广泛使用不同的模型进行盐碱度反演。PLSR是一种处理变量间强共线性的常用方法,并广泛应用于高光谱反演。例如,Fan等人使用PLSR对先进陆地成像仪(ALI)数据进行处理,用于黄河三角洲土壤盐碱度的制图。CNN作为一种深度学习模型,相较于传统机器学习模型,能够更好地构建非线性复杂关系,并在多个领域有广泛应用(Arun等人,2020;Bharati和Pramanik,2020)。Nie等人(2024)使用CNN模型估算不同土地利用类型下煤源碳质量分数,其验证集的R2达到0.9993,RPD为40.3081。
与传统机器学习算法相比,XGBoost通过引入内部缓存优化和高效的数据结构,显著提高了计算效率,从而实现更快的训练速度。此外,XGBoost算法使用泰勒二阶展开将多个弱学习器组合成强学习器,优化目标函数。同时,它引入了正则化项以控制模型的过拟合。与其它算法相比,XGBoost具有较高的分类效率和精度(Huang等人,2022)。
在本研究中,所有模型均采用贝叶斯优化进行超参数调优。研究采用三种评估指标:决定系数(R2)、均方根误差(RMSE)和相对预测偏差(RPD)。较高的R2和较低的RMSE表示模型精度较高。较大的RPD则表明预测能力更强。具体而言:当RPD > 2时,模型具有优秀的预测能力;当RPD在1.8至2之间时,模型表现出良好的预测能力;当RPD在1.4至1.8之间时,模型的预测能力被认为是中等;当RPD在1.0至1.4之间时,模型的预测能力较差;若RPD < 1.0,则模型的预测能力被认为是极差(Chen等人,2023)。
SHAP(SHapley Additive exPlanations)是一种通过计算特征对模型输出的边际贡献来解释机器学习模型预测结果的工具,从而提供对模型的解释。其基本概念基于合作博弈论中的Shapley值,用于计算每个特征对模型预测结果的平均贡献。SHAP构建了一个加法解释模型,其中所有特征都被视为贡献者。对于每个预测样本,模型生成一个预测值,而SHAP值则表示每个特征在该样本中的数值贡献。与其它解释方法相比,SHAP提供了全局和局部解释方法,全面考虑了所有特征对模型输出的影响。此外,SHAP通过加权平均计算特征贡献,确保了更公平和准确的解释,使其在解释复杂模型方面具有高度的可信度和实用性(Lundberg和Lee,2017;Lundberg等人,2020;Yang等人,2024)。
贝叶斯优化(BO)是一种基于概率模型的迭代优化方法,能够有效探索参数空间,其核心原理是构建一个概率替代模型,通过获取函数逐步优化参数配置,从而系统地逼近模型的全局最优解。与传统方法相比,贝叶斯优化具有较低的计算资源需求和有效的参数空间探索能力,特别适用于样本效率高、计算成本高的目标函数的优化。
通过比较分析,本研究发现XGBoost模型在所有配置中表现出最高的精度,优于PLSR和CNN模型。这与Yoon等人(2023)和W. Zhang等人(2024)的研究结果一致。作为一个由多个弱学习器组成的集成模型,XGBoost具有高度优化的损失函数,通过泰勒展开近似实现更好的数据理解,并更快地收敛到最优解。此外,其使用剪枝技术降低模型复杂度,从而增强泛化能力。这些特性使得XGBoost模型在预测性能上优于PLSR和CNN模型。
然而,本研究仍存在一些局限性。首先,样本采集过程受到时间和资源的限制,导致样本量可能无法充分代表复杂地表环境的异质性。其次,高光谱数据对季节变化较为敏感,使用单一时间段的数据构建的模型可能在其他季节的应用中表现不佳。此外,东营市的沿海位置导致其土壤成分和含水量与干旱地区(如宁夏)存在显著差异,这可能影响模型在不同地理环境中的适用性。
综上所述,本研究围绕东营市开展,利用样本点的高光谱数据进行分析。应用了包括传统光谱变换、分数阶导数和连续小波变换等多种光谱变换方法。通过CARS算法选择最优波长和混合波段,计算不同波长组合与土壤盐碱度之间的相关系数,确定最优组合,并据此构建了二维和三维光谱指数。随后,利用PLSR、CNN和XGBoost模型分析不同波长组合和光谱指数维度的适用性。研究结果表明:
1. CARS算法能够有效筛选敏感波长,显著减少数据量并降低数据冗余。
2. 相较于二维光谱指数,三维光谱指数能够提高数据反演精度。此外,二维和三维光谱指数的组合在提高反演精度方面优于单独使用三维光谱指数。
3. 相较于传统光谱变换,小波变换和分数阶导数能够有效提升模型精度和泛化能力。特别是在XGBoost模型中,混合阶导数变换表现出更优越的预测性能。
4. 相较于PLSR和CNN模型,XGBoost模型在预测性能方面更具优势。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号