基于数据分析和建模的卢旺达尼亚巴龙戈流域洪水易发性制图
《Geomatics, Natural Hazards and Risk》:Flood susceptibility mapping in the Nyabarongo Catchment, Rwanda, based on data analysis and modeling
【字体:
大
中
小
】
时间:2025年09月19日
来源:Geomatics, Natural Hazards and Risk 4.5
编辑推荐:
土壤盐渍化监测中,基于混合尺度变换(分数阶微分和连续小波变换)构建二维及三维光谱指数,结合XGBoost、PLSR和CNN模型评估反演精度。结果表明,三维指数结合XGBoost模型精度最优(R2=0.97),验证了混合维度指数在提升敏感波段特征提取和模型泛化能力方面的有效性。
土壤盐碱化是全球气候变化和人类活动加剧背景下出现的一种严重问题,对农业生产及可持续发展构成了显著威胁。本研究以山东省东营市为研究区域,探讨了结合多尺度变换和高维光谱指数在模型反演中的有效性。通过光谱变换构建混合变换方法,识别出敏感光谱波段,进而开发出二维和三维光谱指数。这些指数作为特征变量,用于构建三种模型:极端梯度提升(XGBoost)、偏最小二乘回归(PLSR)和卷积神经网络(CNN)。通过SHAP可解释性分析评估最优模型。研究结果表明,所提出的方法有效增强了波段敏感性,提高了模型的准确性和泛化能力。不同光谱波段的指数操作可以增强光谱敏感性特征,或在一定程度上抑制噪声的影响。研究结果为优化光谱指数提供了理论框架,揭示了不同指数对盐碱响应机制和抗噪能力的差异,有助于推动盐碱化监测向更精准、智能化和成本效益的方向发展。
在模型选择方面,许多国内外学者采用不同的模型进行盐碱化反演。PLSR能够有效处理变量间的强共线性问题,广泛应用于高光谱反演。例如,Fan等人利用PLSR对高级陆地成像仪(ALI)数据进行处理,以实现黄河三角洲土壤盐碱化的映射。CNN作为一种深度学习模型,相比传统机器学习算法,在构建非线性复杂关系方面表现出色,已在多个领域得到广泛应用。Nie等人利用CNN模型估计不同土地利用类型下的煤源碳质量分数,其验证集R2值达到0.9993,RPD值达到40.3081,显示出其卓越的预测能力。与传统方法相比,XGBoost通过引入正则化项来控制模型过拟合,同时利用泰勒二阶展开将多个弱学习器组合成强学习器,优化目标函数,从而实现更高的分类效率和准确性。
本研究采用贝叶斯优化方法对上述模型进行超参数调优,以提升模型的性能。在模型评估方面,使用了三个指标:决定系数(R2)、均方根误差(RMSE)和相对预测偏差(RPD)。R2值越高、RMSE值越低,模型的精度越好。RPD值越大,表示模型的预测能力越强。具体而言,当RPD大于2时,模型表现出优异的预测能力;当RPD在1.8至2之间时,模型具有良好的预测能力;当RPD在1.4至1.8之间时,模型的预测能力被认为是中等的;当RPD在1.0至1.4之间时,模型预测能力较差;当RPD小于1.0时,模型预测能力非常差。
在研究方法中,我们首先对东营市的土壤样本进行了采集和预处理。样本采集工作在2022年10月进行,正值盐分积累高峰期。共设立87个测量单元,每个单元面积为30米×30米。使用GPS记录每个采样单元的坐标,采集土壤样本时采用五点布局,重点采集0至20厘米的土壤层。每个单元的样本分为两部分,一部分用于测定土壤盐分,另一部分用于测定土壤含水量。在实验室中,对样本进行干燥、粉碎、筛分和混合处理,取200克样品制成1:5的土壤-水提取液,用于盐分测定。另一部分样本则采用烘箱干燥法测定含水量。所有样本的处理和分析均在山东理工大学分析测试中心完成。
土壤光谱数据在晴朗无风或微风条件下,于上午11点至下午2点之间采集。使用SVC HR1024光谱辐射计(波长范围350-2500纳米,1024个通道)进行测量。每次测量前,使用白参考板对光谱仪进行校准。根据观测条件,在0.5米的样本区域内采用两种测量方式:第一种为25度视场角、约1.1米高度、约0.5米地面直径,测量方向为四个方向(每次旋转90度),采样间隔为1秒,每个方向测量5次,共获得20条光谱曲线,计算20条光谱曲线的算术平均值以获得原始土壤反射率光谱。第二种为4度视场角、探测器与样本距离约为15厘米、地面直径约为5厘米,测量过程与宽视场角方法相同。这种双测量策略确保了光谱数据的全面性和代表性,能够反映土壤表面条件和照明角度的变化。
在数据预处理阶段,我们采用S-G滤波对原始光谱数据进行平滑和降噪处理,设置平滑窗口为7,多项式次数为3。为消除由于散射效应引起的基线漂移,对降噪后的数据进行了MSC处理。为了确保训练集和测试集在数值分布范围上的一致性和覆盖范围的统一,我们按照土壤盐分含量对数据集进行升序排序。基于相关学者的方法(Snee, 1977;Raschka, 2018),我们考虑满足基本模型训练需求,同时确保测试集具有足够的样本量以进行统计推断。采用系统采样间隔3:1(训练集与测试集比例),最终训练集占70%(n=60),测试集占30%(n=27)。
在研究方法中,我们采用了分数阶导数(FOD)进行光谱数据变换。分数阶导数是整数阶微分的扩展,具有“全局性”和“记忆性”的优势。相比整数阶导数,分数阶导数能更好地突出光谱数据中的细微和全局信息,提高信噪比,减少或消除光谱数据中的噪声干扰。因此,分数阶导数在光谱数据变换中被广泛应用。在众多分数阶微分方法中,Grünwald–Letnikov(G–L)分数阶导数因其数值可计算性而被广泛采用。对于定义在区间[s, t]上的连续函数f(x),如果它具有α阶连续导数,则f(x)在点t处的α阶导数表达式如(1)所示。在该研究中,我们设定了步长h为1,s和t分别代表微分的起始和结束波长。令t?s=k,则α阶分数阶导数的表达式如(2)所示。从(2)式可以看出,分数阶导数在λ处的值受到λ?1波长值的影响,反映了分数阶导数的“全局性”和“记忆性”特性。根据先前研究(Ding et al., 2023;H. Y. Huang et al., 2024),我们采用0.25阶的步长计算不同阶次的分数阶微分,以实现系统遍历搜索、精细敏感性捕捉和计算效率的平衡。所有这些过程均在Matlab R2022a中实现。
连续小波变换(CWT)利用小波基函数对高光谱数据进行分解。分解后的数据包含两个维度的信息:分解尺度和波长。通过CWT,一维光谱数据被转换为二维小波系数(Gao et al., 2024)。CWT的数学表达式如(3)和(4)所示。在这些公式中,f(λ)表示光谱反射率,λ是波长,ψ(a,b)(λ)是小波基函数,Wf(a,b)是小波系数,a是尺度因子,b是平移因子。根据先前研究(Wang et al., 2023;Nie et al., 2024),我们将光谱数据分解为10个不同的尺度(21至21?)。这种多尺度设计能够全面覆盖高频、中频和低频信息领域,同时确保关键盐碱化特征得以保留。通过设置上界尺度以避免冗余,实现了计算效率与特征获取之间的最佳平衡。由于高斯函数的曲线特性与土壤光谱曲线相似,我们选择高斯4函数作为CWT处理的小波基函数(S. W. Zhang et al., 2024)。
竞争自适应重加权抽样(CARS)算法模仿了达尔文进化论中的“适者生存”原则。它结合蒙特卡洛抽样和PLSR中的系数,利用指数衰减函数(EDF)和自适应重加权抽样技术(ARS)。该算法选择PLSR模型中绝对回归系数较大的波长变量,去除绝对值较小的变量。使用新的特征子集构建新的PLSR模型,并重复这一过程多次。最终,选择交叉验证均方根误差(RMSECV)最小的子集作为最佳特征波长(Li et al., 2024;Zhou et al., 2025)。
在指数构建过程中,我们基于预处理和变换后的光谱数据构建了九个二维光谱指数。通过分析这些指数与土壤盐分之间的相关系数,识别出不同指数的最佳光谱组合。二维光谱指数是一种研究高光谱数据反演土壤盐分的常用方法。与一维光谱数据相比,二维光谱指数能够有效考虑光谱波段之间的交互性。在本研究中,我们构建了九个二维光谱指数,并总结了其计算方法(H. Y. Huang et al., 2024)。与二维光谱指数相比,三维光谱指数具有更强的量化能力和稳定性(Z. P. Zhang et al., 2020)。然而,以往关于三维光谱指数(TDI)的研究相对有限。在本研究中,我们基于实验工作构建了九个三维光谱指数,并详细说明了其计算公式(见表3)。
在上述公式中,i、j和k分别代表不同的波长,R表示每个波长对应的反射率。在模型构建和性能评估部分,我们构建了PLSR、CNN和XGBoost模型,使用二维、三维以及二维和三维光谱指数的组合作为输入变量,土壤盐分作为输出变量。PLSR是目前最广泛使用的光谱建模方法之一。该方法结合了多元线性回归分析、典型相关分析和主成分分析的特点,能够更全面地表示信息。它假设可以通过解释变量的线性组合来估计因变量(Wang et al., 2018)。PLSR提供了一种多变量到多变量的线性回归建模方法,特别适用于变量间存在多重共线性且观测数据有限的数据集。在这种情况下,使用PLSR构建的模型优于传统的经典回归分析方法。当处理多变量到多变量线性回归问题时,普通多元线性回归由于独立变量之间的相关性容易导致过拟合。相比之下,PLSR通过寻找线性独立的新变量来替代原始独立变量,最大化这些新变量之间的差异(Shen et al., 2020)。
CNN是一种深度学习模型,也是一种前馈神经网络。它在特征提取、分类和回归任务中表现出显著优势。与传统机器学习算法相比,CNN具有更好的泛化能力。如图3所示,CNN的结构包括输入层、卷积层、激活层、池化层和全连接层(Sun et al., 2022)。CNN的结构由两个卷积层(3个滤波器和2个滤波器)组成,随后是两个最大池化层(池化大小为2),一个dropout层(丢弃率=0.1),一个包含64个神经元的全连接层(使用ReLU激活函数),以及一个输出层(Dense(1))。经过多轮模型优化后,最终模型采用了“adam”梯度下降算法,最大训练迭代次数为1200,初始学习率为0.01,使用ReLU激活函数。为了防止过拟合,我们在训练过程中引入了dropout层,随机丢弃10%的神经元。
XGBoost是一种基于梯度提升决策树的高级集成学习算法。它通过引入内部缓存优化和高效数据结构,显著提高了计算效率,实现了比传统梯度提升树方法更快的训练速度。此外,XGBoost算法利用泰勒二阶展开将多个弱学习器组合成一个强学习器,优化目标函数。它还引入了正则化项来控制模型的过拟合。与其它算法相比,XGBoost具有较高的分类效率和准确性(Huang et al., 2022)。
所有上述模型均采用贝叶斯优化方法进行超参数调优。在本研究中,我们采用三种指标评估模型的精度:决定系数(R2)、均方根误差(RMSE)和相对预测偏差(RPD)。R2值越高、RMSE值越低,模型的精度越好。RPD值越大,表示模型的预测能力越强。具体而言:当RPD > 2时,模型表现出优秀的预测能力;当RPD在1.8至2之间时,模型显示出良好的预测能力;当RPD在1.4至1.8之间时,模型的预测能力被认为是中等的;当RPD在1.0至1.4之间时,模型的预测能力较差;当RPD < 1.0时,模型的预测能力被认为非常差(Chen et al., 2023)。
在模型构建和分析中,我们比较了不同变换和不同维度的光谱指数在三种模型中的适用性。我们构建了PLSR、CNN和XGBoost模型,使用二维、三维以及二维和三维光谱指数的组合作为输入变量,土壤盐分作为输出变量。在PLSR模型中,当使用二维光谱指数作为特征变量时,小波变换在分解尺度L7下表现出相对较高的训练精度,R2、RMSE和RPD分别为0.81、1.50和2.26。在分解尺度L1下,测试精度相对较高,R2、RMSE和RPD分别为0.87、1.77和2.72。与二维光谱指数相比,大多数三维光谱指数表现出更高的精度。例如,在分解尺度L4下,训练精度相对较高,R2、RMSE和RPD分别为0.83、1.4和2.42。此外,在1阶分数阶微分变换下,测试精度相对较高,R2、RMSE和RPD分别为0.92、1.34和3.58。
在CNN模型中,当使用二维光谱指数作为特征变量时,1.75阶的分数阶微分变换表现出相对较高的训练精度,R2、RMSE和RPD分别为0.96、0.66和5.13。在0.25阶的分数阶微分变换下,测试精度相对较高,R2、RMSE和RPD分别为0.69、2.67和1.81。与二维光谱指数相比,大多数三维光谱指数表现出更高的精度。例如,在分解尺度L6下,训练精度相对较高,R2、RMSE和RPD分别为0.94、0.8和4.22。此外,在1.75阶的分数阶微分变换下,测试精度相对较高,R2、RMSE和RPD分别为0.85、1.86和2.60。
在XGBoost模型中,当使用二维和三维光谱指数的组合作为输入变量时,测试精度相对较高,R2、RMSE和RPD分别为0.97、0.73和6.62。这表明分数阶微分在预测性能方面优于传统的光谱变换和小波变换。这与Zhao等人(2022)的研究结果一致,他们在预测土壤氧化铁含量时,发现0.5阶的微分模型表现最佳。
此外,我们观察到在PLSR和XGBoost模型中,二维和三维光谱指数的组合在预测性能上优于单独使用二维或三维光谱指数。这种组合能够有效提高模型的反演精度,因为土壤盐分与光谱信息之间存在二维和三维的关系。通过将二维和三维光谱指数结合到模型中,土壤盐分可以被更有效地表达,克服了二维光谱指数在捕捉三维光谱关系上的局限性,同时也弥补了三维光谱指数在直接表达二维关系上的不足,从而提升了反演性能。
在特征优化和噪声抑制方面,二维光谱指数保留了与盐分相关的核心信息,而三维光谱指数保留了更多信息,但也可能引入噪声或无关特征。通过结合二维和三维光谱指数,可以将二维指数选择的关键特征与三维指数丰富的信息相结合,减少数据冗余,同时保留重要特征,提高模型效率。此外,二维指数有助于过滤三维指数中的噪声,增强模型的鲁棒性。
除了本研究采用的三种模型外,还有许多其他模型在相关领域得到了广泛应用。例如,Fu, Wu等人(2024)在监测红树林叶片等效水分厚度(EWT)和叶片质量面积(LMA)时,采用了一种集成学习回归模型,将传统统计模型(岭回归和PLSR)与三种机器学习方法(K-近邻、随机森林和XGBoost)结合,最终实现了EWT和LMA的高精度预测。Guo等人(2024)采用支持向量回归(SVR)和反向传播神经网络(BPNN)研究马铃薯冠层叶片含水量,发现SVR在块茎形成阶段是最优的反演模型,R2值达到0.81。Dong和Tian(2024)在玛纳斯河流域绿洲地区实施了堆叠算法进行盐碱化反演,相比随机森林(RF)模型,其R2和RPD分别提高了6.5%。在不同模型之间,集成学习回归模型通过整合多种方法的优势,实现了高精度的样本预测;XGBoost利用梯度提升机制和正则化技术,在结构化数据上实现高精度和高效训练,同时支持特征重要性分析,尽管其对超参数敏感且计算成本较高;随机森林(RF)通过Bagging集成和特征子采样增强鲁棒性和抗过拟合能力,提供高训练效率和直观的特征评估,但通常在精度上不如Boosting模型;基于核方法的支持向量回归(SVR)在小样本非线性问题中具有强大的泛化能力,对特征缩放不敏感,但计算复杂度高,参数调优困难,且可解释性差;堆叠通过整合异构基础模型,超越了单个模型的性能限制,显著提高了泛化能力,但计算成本极高,过拟合风险增加,且可解释性较低。
通过比较不同模型的预测精度,我们发现XGBoost模型优于PLSR和CNN模型。这与Yoon等人(2023)和W. Zhang等人(2024)的研究结果一致。作为一种由多个弱学习器组成的集成模型,XGBoost通过泰勒展开近似优化损失函数,使模型更好地理解数据并更快地收敛到最优解。此外,其使用剪枝技术减少模型复杂度,增强泛化能力。这些特性使得XGBoost在预测性能上优于PLSR和CNN模型。
本研究还存在一些局限性:样本采集过程受到时间和资源的限制,导致样本量可能无法充分代表复杂地表环境的异质性;高光谱数据对季节变化敏感,这意味着使用某一时间段数据构建的模型可能在应用于其他季节时表现不佳;此外,东营市的沿海地理位置导致其土壤成分和含水量与干旱地区(如宁夏)存在显著差异,这可能影响模型在不同地理环境中的适用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号