利用无人机影像和RFE-XGBoost模型对寒冷干旱地区滴灌条件下春玉米的生长状况进行诊断

《Agricultural Water Management》:Diagnosis of growth status for spring maize under drip irrigation in cold-arid regions using UAV imagery and an RFE-XGBoost model

【字体: 时间:2025年11月03日 来源:Agricultural Water Management 6.5

编辑推荐:

  玉米春播期生长状态监测模型构建及优化

  本文围绕春玉米生长状态监测中无人飞行器(UAV)遥感影像的监测能力评估展开,旨在为农业田间管理与产量提升提供关键指导。研究通过集成五项生长参数(如叶面积指数、叶绿素含量等),采用结合变异系数与熵权法的综合生长指数(CGI)构建模型,以提升对春玉米生长状态的预测精度。研究还通过递归特征消除(RFE)结合极端梯度提升(XGBoost)算法,开发了一种生长状态诊断模型,并进一步分析了特征变量优化对模型稳健性的影响,以及通过Shapley值对模型进行可解释性分析。结果表明,采用熵权法计算的CGI能够准确反映春玉米的生长状态。不同生长阶段的最优特征变量选择存在差异,优化后的特征变量显著提高了XGBoost模型在测试集上的稳健性,R2值提升了1.89%–20.83%,均方误差(MAE)降低了1.23%–10.28%,均方根误差(RMSE)减少了1.71%–10.20%。优化后的特征参数在V6至R6生长阶段的测试集中表现出色,R2值达到0.602–0.791。在总生长阶段(Total stage)的CGI预测能力显著优于V6–R6阶段模型,R2值达到0.863。此外,XGBoost模型在其他基准模型(包括随机森林、分类提升和轻量级梯度提升机)中表现突出,为基于UAV的春玉米生长状态监测建立了新的基准。Shapley分析精准量化了不同生长阶段特征参数对模型性能的影响,生成的CGI时空分布图与实地观测结果高度一致,进一步验证了本研究模型框架的可靠性。本研究为在寒冷干旱地区构建集成生长反演模型提供了理论基础,同时为大规模、低成本的农业管理提供了实践路径。

在研究背景部分,文章指出春玉米作为全球广泛种植的作物,是中国重要的粮食作物之一,占据了相当大的种植面积和产量。保障春玉米产量不仅对国家粮食安全至关重要,也是防止粮食危机的关键因素。传统的作物评估方法涉及破坏性取样和专业人员的目视识别,这些方法成本高、耗时长、资源消耗大。随着低空遥感技术的不断发展,遥感数据的空间和时间分辨率显著提高,同时采集成本大幅下降。遥感影像的丰富性增强了其与作物生理生化变量之间的相关性,从而提高了监测的可靠性。显然,遥感技术已成为精准农业发展的重要工具。生长指标如叶面积指数(LAI)、地上生物量(AGB)和叶绿素含量(SPAD)可以有效评估植被的营养状况、光合潜力和胁迫条件。已有研究利用遥感数据建立了与作物参数如LAI和AGB之间的关系模型,用于作物状态评估。然而,作物生长受气象、土壤和田间管理因素影响,表现出高度复杂的动态变化。单一的生长指标与植被指数的相关性较弱,难以全面反映作物的整体生长状况。已有研究利用等权重方法构建了综合生长指数(CGI),整合了冬小麦的地上生物量和叶绿素含量,显著增强了其与UAV遥感数据的相关性。然而,目前关于UAV在春玉米CGI监测方面的研究主要集中在冬小麦,对春玉米生长阶段变化的CGI估算关注有限,是否春玉米的生长阶段影响了UAV提取特征变量的选择仍是一个开放的研究问题。

为了解决这些研究空白,本文引入了熵权法来计算CGI,并结合UAV多光谱数据与XGBoost算法,构建了春玉米滴灌条件下的生长监测模型。研究目标包括:(1)探索UAV多光谱数据与机器学习结合预测滴灌条件下春玉米生长状态的能力;(2)比较不同生长阶段基于最优特征构建的模型与使用全部特征的模型之间的差异;(3)开发并验证不同生长阶段的春玉米生长监测模型。文章随后描述了数据采集、研究方法和研究结果。图1展示了本研究的流程。

在研究方法部分,本文介绍了研究区域与实验设计。研究区域位于准噶尔盆地西部的克拉玛依农业开发区,该地区具有温带内陆气候,特征为干旱(年均降水量108.9 mm,蒸发量2692.1 mm),日照时间长(年均日照时间2705.6小时),春季和秋季风频繁,季节性温度变化极端(年均温度8.6°C)。研究使用的春玉米品种为“泰玉331”,4月30日播种,9月20日收获,宽行距为0.7米,窄行距为0.4米,株距为0.2米。滴灌系统使用非压力补偿式滴头,间距为0.25米,每个滴头流量为2.8–3.0升/小时,灌水均匀系数达到88–90%。春玉米的灌水定额为每公顷5784立方米,灌水周期为7–10天,灌水深度为0–0.6米。2023年研究区域的气象数据见表1。研究选择了四个关键生长阶段进行观测:V6阶段(分蘖期)、V12阶段(大喇叭口期)、R2阶段(灌浆期)和R6阶段(成熟期)。本文在研究区域中均匀布置了200个观测点,分别在四个关键生长阶段进行重复采样,以确保研究的可靠性。图2描述了采样点的分布。

在数据采集与处理部分,文章详细介绍了UAV影像的采集与处理。研究采用大疆Phantom 4多光谱UAV(大疆,深圳,中国)进行春玉米UAV影像采集。该UAV系统结合了RGB影像与绿、红、红边和近红外波段影像。UAV的光谱波段规格见表2。UAV影像应理想地在晴朗、低风速和无云天气条件下采集。2023年6月10日、6月30日、8月20日和9月8日进行了UAV飞行,时间在13:00至15:00之间。UAV的参数配置为飞行高度80米,纵向和横向重叠率均为75%,水平移动速度为4米/秒。UAV影像通过DJI Terra v3.9.4软件进行预处理,包括正射校正、影像镶嵌和基于反射率面板DN值的辐射校正。该流程生成了单波段正射影像,像素大小为0.03米。UAV影像在ArcMap 10.7中进行裁剪、波段计算和重采样,重采样影像的空间分辨率为1米。

文章进一步介绍了春玉米植物数据的采集。植物高度通过使用尺子从植株基部到顶端进行测量(精度为0.1厘米),记录平均值作为地块级别的高度数据。春玉米叶片的SPAD值通过SPAD-502Plus叶绿素计进行测量。在春玉米植株的完全展开叶片上进行多次测量,计算平均SPAD值以代表该点的值。本文采用长宽比法确定叶面积指数(LAI),其计算公式如下:LAI = (1/m) * ∑(L? × D? × K × D?) / S。公式中,LAI表示叶面积指数;m表示采样春玉米植株的数量(株);N表示每个采样植株的总叶片数(片);L?和D?分别表示叶片长度(厘米)和宽度(厘米);K是叶面积校正因子(设为0.75);D?表示植株密度(株·米?2);S = 10,000(厘米2·米?2)是单位转换因子。植被含水量(VWC)通过破坏性取样进行测量。地上春玉米植株被剪切并称重以获得鲜重。然后在105°C下烘干30分钟,随后在75°C下进一步烘干直至恒重,测量干重。产量方面,每个采样点收获1平方米的区域,样本随后在烘箱中烘干、脱粒、晒干至恒重,并称重以计算每平方米的产量。水分生产力(WP)是单位灌溉水量下的产量,通过将总玉米产量除以灌溉定额进行量化。

在植被指数部分,文章指出本研究中所有多光谱植被指数均来源于UAV的B3、B4、B6和B8波段。这些指数在监测春玉米作物时具有不同的作用:OSAVI、MSAVI和SAVI用于减轻裸土干扰;NDVI、DVI、RVI和MSR用于监测叶面积指数和生物量;EVI用于弥补NDVI的局限性,而GNDVI和CI用于评估叶绿素含量。表4列出了这些植被指数的计算公式。

在方法部分,文章介绍了基于熵权法的综合生长指数(CGI)计算方法。熵权法是一种根据每个指标数据的方差和相关系数动态确定权重的方法。本研究采用熵权法确定叶面积指数、植株高度等指标在CGI中的权重。表5列出了不同生长阶段的CGI计算公式,包括各指标的权重分配。公式中,ε?表示每个指标的标准差,x??表示每个指标的平均值,C?表示每个指标在CGI中的权重。G?表示归一化指标值,max(X?)表示每个指标的最大值,X?表示原始指标值。

随后,文章介绍了XGBoost模型的开发与优化。XGBoost是一种基于梯度提升决策树的优化集成学习算法。由于其计算效率和预测准确性,XGBoost在各种机器学习应用中表现出色,包括分类和回归任务。算法的核心创新包括两个关键机制:(1)沿损失函数的梯度方向构建新模型;(2)采用二阶泰勒展开近似损失函数。这种方法不仅解决了计算复杂损失函数导数的挑战,还显著提高了计算效率和模型准确性。此外,引入了正则化项以防止过拟合。XGBoost整合了多个基学习器(CARTs),最终预测是所有基学习器输出的总和。XGBoost的目标函数定义如下:Obj = ∑?=1? l(y?, ??) + ∑?=1? Ω(f?)。公式中,i表示样本索引,n表示输入到第k棵决策树中的总样本数,K表示构建的CART树总数。第一部分量化了预测值与实际值之间的偏差,第二部分是正则化项,其函数形式Ω(f?)由γ和λ的正则化惩罚系数及节点权重向量ω决定。

文章还介绍了特征变量选择方法。过多的特征变量可能导致模型过复杂和过拟合。RFE是一种基于模型的包装特征选择策略。它通过迭代训练模型并消除得分最低的特征来优化特征集。因此,本研究开发了XGBoost分类器。基于XGBoost的基学习器,模型在数据集A1上进行了5折交叉验证以计算特征重要性。通过消除重要性最低的特征,获得精简的子集A2。该过程在后续的子集(A2, A3, …)上迭代进行,直到达到预定义的保留特征数量。

在模型准确度评估指标部分,文章指出本研究采用了决定系数(R2)、平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和均方根误差(RMSE)来评估UAV遥感模型在预测综合生长指数中的性能。其公式如下:R2 = 1 - ∑(f? - y?)2 / ∑(y?? - y?)2;RMSE = √(1/m ∑(f? - y?)2);MAE = (1/m) ∑|f? - y?|。其中,f?表示第i个样本的预测值,y?表示实际测量值,m表示总样本数。R2用于评估模型的拟合优度;数值越接近0表示模型性能越差。RMSE通过平方误差量化偏差,而MAE通过绝对误差进行测量。对于RMSE和MAE,数值越接近0表示模型性能越好。

在模型不确定性检测部分,文章指出不确定性检测在机器学习中用于量化预测不确定性。通过明确考虑预测置信度,它有助于识别与实验过程、输入变量和输出结果相关的不确定性。不确定性检测不仅解释了研究结果的可靠性,还为决策提供了客观的理论依据。不确定性度量U95的计算公式如下:U95 = 1.96 × √(SD2 + RMSE2)。其中,SD表示模型估计误差的标准差,1.96是标准正态分布下95%置信水平的临界值。

在基于SHAP的模型可解释性部分,文章指出解释机器学习模型对于评估其可靠性至关重要。SHAP(SHapley Additive Explanations)是一种基于博弈论的方法,用于解释机器学习模型。其核心功能是评估每个特征对模型估计的贡献,提供对特征重要性的直观分析。例如,在总结点图中,特征从上到下的排序表示其全局重要性排名。此外,图表可视化了特征值与其对应的SHAP值之间的关系,其中红色点表示较高的实际特征值,蓝色点表示较低的特征值。横轴表示SHAP值的大小:正的SHAP值意味着特征值的增加会使预测值上升,而负的SHAP值意味着特征值的增加会使预测值下降。SHAP值测量了每个特征对单个预测的影响。

在结果部分,文章介绍了CGI模型的构建与测试。本研究将不同生长阶段的春玉米CGI数据划分为训练集和测试集。该划分方法确保了训练集和测试集之间具有一致的统计特性,从而减少集间偏差。每个生长阶段采集了200个采样点。数据集划分为70%用于模型训练,30%用于测试。为了确保回归模型的稳定性,采用方差膨胀因子(VIF)检测多重共线性。如果植被指数的VIF值大于10,表示存在多重共线性。图4展示了春玉米不同生长阶段训练集和测试集中CGI值的统计特性,采用箱线图-核密度图组合。图4表明,不同生长阶段的CGI数据集均遵循正态分布,且极少出现异常值。表7提供了输入参数与CGI之间的多重共线性分析,表明在V6阶段,NGRDI、NPCI和TVI存在多重共线性;在V12阶段,MSR、NDDI、NGRDI、NPCI和TVI存在多重共线性;在R2阶段,MSR、NGRDI、NPCI和TVI存在多重共线性;在R6阶段,GI、GNDVI、MSR、NGRDI、NPCI和TVI存在多重共线性。

模型优化结果表明,不同生长阶段的特征选择结果存在显著差异。本研究的数据集质量高,且未显示多重共线性。与使用全部特征的模型相比,最优特征模型在关键超参数(如max_depth)上表现出显著改进。结果表明,特征选择方法有助于更深入地理解数据。表8列出了各生长阶段采用的优化超参数。

在不同生长阶段的春玉米生长监测模型性能评估部分,文章指出基于RFE-XGBoost的CGI预测模型在不同生长阶段使用两种不同的特征集:(1)全部特征变量;(2)最优特征子集。图5清晰地展示了优化前后的XGBoost模型在训练和测试集上的比较结果。左图显示了优化特征输入的模型,右图显示了使用全部特征的模型。图中的直方图显示了训练集和测试集中测量值与预测值之间的误差频率分布和范围。结果表明,优化特征的模型在所有生长阶段均表现出色的预测性能,R2值范围为0.609–0.902,MAE在0.013–0.041之间,RMSE在0.017–0.050之间。使用全部特征的模型在评估指标上表现出差异,训练集和测试集的R2值为0.504–0.924,MAE范围为0.013–0.046,RMSE在0.010–0.054之间。在总生长阶段,模型性能显著优于V6–R6阶段,其中V6阶段的预测准确性最低。在V6阶段,优化模型确认了显著的改进,训练集的R2值提高了11.13%,测试集的MAE和RMSE分别减少了8.57%和9.31%。在测试集上,模型的R2值提高了20.83%,MAE和RMSE分别减少了8.11%和10.20%。使用全部特征变量作为输入时,XGBoost模型在测试集上表现出比训练集高19.44%的R2值。优化特征输入的XGBoost模型在测试集上表现出比训练集高9.85%的R2值。在V6阶段,优化模型在训练集上优于全部特征模型。在V12–总生长阶段,优化模型在训练集上的性能低于全部特征模型,R2值下降了2.38–22.44%,MAE上升了6.45–50.00%,RMSE增加了8.33–54.54%。在V6–总生长阶段,优化模型在测试集上表现优于全部特征模型,R2值提升了1.89–20.83%,MAE减少了1.23–10.28%,RMSE下降了1.71–10.20%。在该生长阶段,使用全部特征变量作为输入的XGBoost模型在训练集和测试集上表现出R2值的改善范围为-0.44–9.85%。优化特征输入的XGBoost模型在测试集上表现出R2值的改善范围为9.09–40.10%。误差直方图显示,对于优化特征和全部特征模型,训练集和测试集在V6、V12和总生长阶段的相对误差主要集中在(-0.1, 0.1)范围内,呈现正态分布模式。在R2和R6生长阶段,优化特征和全部特征模型的误差分布显示,相对误差在训练集和测试集中主要集中在(-0.04, 0.04)范围内。总体而言,本研究中的XGBoost模型在不同生长阶段表现出显著的性能差异。其中,V6阶段的预测能力相对较弱,而V12阶段的性能优于R2和R6阶段。总生长阶段的模型整体性能最佳。此外,从V6阶段开始,使用全部特征的模型在训练集上通常表现出更强的性能,但在测试集上的泛化能力较弱。研究显示,优化特征的模型在所有评估指标上均优于全部特征模型。

在不确定性分析部分,文章指出图6展示了雷达图,比较了训练和测试阶段的模型性能,以评估预测精度和泛化能力。在V6阶段,优化特征和全部特征的XGBoost模型均表现出有效性能,训练集和测试集的U95值约为0.12。在V12阶段,两种特征输入模型的不确定性水平相似,训练集的U95值约为0.16,测试集的U95值约为0.18。在R2和R6阶段,模型在训练集和测试集上的U95值分别为0.04和0.08。在总生长阶段,两种模型均表现出较低的过拟合,尽管其U95不确定性值相对较高,范围在0.20–0.22之间。总体而言,优化特征和全部特征的XGBoost模型在所有生长阶段的训练集和测试集上均表现出一致的性能,显示出较强的预测能力。

在SHAP特征重要性分析部分,文章指出本研究通过建立贝叶斯优化的XGBoost模型作为基学习器,随后量化了每个特征对预测结果的贡献。特征重要性排名在训练集和测试集中保持高度一致。在V6阶段,特征重要性排名为:MSR > B3 > B4 > MSAVI > OSAVI > NDVI > B6 > SAVI > RDVI。在V6阶段,MSR、OSAVI、MSAVI和NDVI的值增加与更大的SHAP值相关,表明这些特征对CGI预测有正向贡献。B3、B4、B6、SAVI和RDVI的值增加与SHAP值的降低相关,表明这些特征对CGI预测有负向影响。在春玉米的分蘖阶段,茎叶迅速生长伴随叶绿素需求高,而植被覆盖度相对较低。MSR、B3和B4作为叶绿素密度的敏感指标,其高特征重要性验证了该阶段光合器官的快速发育。在此生长阶段,有效监测春玉米活力需要减少土壤背景干扰。SAVI、OSAVI和MSAVI分别具有不同的功能:SAVI有效减少土壤背景干扰,OSAVI动态响应LAI变化,MSAVI用于诊断水氮缺乏。OSAVI和MSAVI值的增加与更大的正向贡献相关。在V12阶段,特征重要性排名为:NDVI > CI > DVI > GI > B6。在V12阶段,冠层覆盖度接近峰值,光合效率最高,同时对水氮供应敏感,易受倒伏影响。NDVI、CI、DVI、GI和B6作为对关键生理参数如生物量、叶水氮含量和叶绿素浓度敏感的稳健指标。NDVI、CI、GI和B6值的增加与更大的SHAP值相关,表明这些特征对CGI预测有正向贡献。在R2阶段,特征重要性排名为:NDVI > B3 > B6 > B4 > EVI > TVI。在R2阶段,冠层光合效率决定了灌浆速率,且NDVI在该阶段与产量的关联性最高。随着NDVI值的增加,SHAP值也增加,对预测结果产生越来越强的正向影响。EVI可以在高生物量区域抵抗饱和,弥补NDVI的饱和问题。B3对检测下部叶片黄化敏感,反映叶片衰老程度。随着B3值的增加,SHAP值降低,对预测结果产生越来越强的负向影响,这从作物生长的角度来看是不利的。B4、B6和TVI的变化模式与B3相似。在R6阶段,特征重要性排名为:OSAVI > CI > RVI > NDVI > MSAVI > RDVI。随着OSAVI、CI、RDVI、RVI、NDVI和MSAVI值的增加,SHAP值也增加,对预测结果产生正向影响。植被指数如OSAVI、RDVI和NDVI均与叶绿素降解相关,因此在成熟阶段表现出更高的敏感性,故其特征重要性最高。在总生长阶段,特征重要性排名为:DVI > NDVI > MSR > B6 > B3 > RVI。DVI对生物量积累具有敏感性,且较少受土壤背景干扰。NDVI的广泛散点分布源于其能够全面反映冠层动态,尽管容易饱和。DVI、NDVI和RVI值的增加会导致更高的SHAP值,对预测结果产生正向影响,而B6和B3则表现出相反的效果。总体而言,SHAP可解释性分析澄清了不同生长阶段的特征重要性排序,以及光谱特征、SHAP值与它们对模型的影响。

在利用UAV多光谱数据评估春玉米生长时空变化部分,文章指出为了进一步研究不同生长阶段春玉米生长的时空动态,本研究采用优化的特征XGBoost模型预测CGI的变化。本研究生成了区域尺度的CGI空间变化图。春玉米在滴灌条件下的CGI时空分布模式在图8中以可视化形式呈现。在不同生长阶段,CGI被分为五个等级,采用自然断点法进行分类。结果表明,CGI在生长阶段中表现出显著的空间分布差异。在V6阶段,CGI值主要分布在II到IV类,而在V12阶段,主要分布在I到III类。在春玉米的早期生长阶段(V6和V12),CGI对气象因素表现出较高的敏感性,显示出明显的时空异质性。与V6阶段相比,V6阶段中生长较差的区域(IV-V类)在V12阶段改善至中等水平(II-III类)。V12阶段观察到的斑块状空间异质性与灌溉不均密切相关。在R2和R6阶段,CGI值主要分布在I到III类。如图所示,R6阶段的CGI值相较于R2阶段略有上升,这可能是由于在R6阶段春玉米持续积累生物量所致。两个阶段均表现出中心区域生长较差的特征,R6阶段广泛但不显著地出现IV类CGI值,这反映了叶片衰老(SPAD值下降)和植物水分含量减少的现象,与实地观测一致。

在讨论部分,文章指出本文研究中采用的CGI计算方法基于熵权法,显示出与单个生长参数和植被指数的强相关性。因此,基于基本生长指标如LAI,本文采用熵权法构建了春玉米不同生长阶段的综合生长指数。本研究还采用了贝叶斯优化调整模型超参数,同时利用递归特征消除减少特征维度并优化输入特征,采用5折交叉验证防止模型过拟合。为了验证使用全部特征集与优化特征组合对春玉米生长阶段模型性能的影响,本研究比较了这两种方法的性能。研究发现,春玉米CGI预测模型在多个生长阶段中表现出不同的性能。从V6到R6阶段,所有模型均表现出良好的准确性(R2 > 0.5)。V6阶段的模型性能相对较弱(R2 = 0.504–0.669),主要由于春玉米在V6阶段的植被覆盖度较低(0.36 < LAI < 0.62),导致UAV影像中过多的裸土引入了显著的噪声,最终降低了模型准确性。在所有生长阶段中,V12阶段的模型性能最佳(R2 = 0.674–0.853),这归因于该阶段较高的植被覆盖度和较少的土壤暴露,环境因素在此阶段诱导了更显著的生长变异。总生长阶段的模型性能最优(R2 = 0.847–0.924),主要由于其包含多个生长阶段(V6、V12、R2和R6)的综合数据集,样本量大(800个数据点),且输入特征多样(LAI、植株高度、SPAD值、生物量和植被含水量),这些因素均对提高模型准确性至关重要。结果表明,使用全部特征集与优化特征组合作为输入的模型性能存在显著差异。在V6到总生长阶段,使用全部特征输入的模型在训练集上通常表现出更优的性能(R2 = 0.807–0.924),但在测试集上的泛化能力较差(R2 = 0.576–0.847),表明全部特征方法可能面临过拟合的风险。此外,比较使用全部特征输入与优化特征输入的XGBoost模型,发现全部特征模型在训练集和测试集上的R2值差异更大,表明其模型稳定性较低。因此,优化特征的模型整体性能优于全部特征模型。这表明,尽管全部特征模型能捕捉更全面的数据特征,但其有限的测试数据集增加了过拟合的风险。结果进一步确认了特征优化在提升小数据集模型性能中的关键作用。

在比较不同生长阶段的CGI预测模型性能部分,文章指出本研究采用的CGI预测模型在不同生长阶段表现出显著的性能差异。在V6到R6生长阶段,所有模型均表现出良好的准确性(R2 > 0.5)。V6阶段的模型性能相对较弱(R2 = 0.504–0.669),主要由于春玉米在V6阶段的植被覆盖度较低(0.36 < LAI < 0.62),导致UAV影像中过多的裸土引入了显著的噪声,最终降低了模型准确性。在所有生长阶段中,V12阶段的模型性能最佳(R2 = 0.674–0.853)。这归因于该阶段较高的植被覆盖度和较少的土壤暴露,环境因素在此阶段诱导了更显著的生长变异。总生长阶段的模型性能最优(R2 = 0.847–0.924),主要由于其包含多个生长阶段(V6、V12、R2和R6)的综合数据集,样本量大(800个数据点),且输入特征多样(LAI、植株高度、SPAD值、生物量和植被含水量),这些因素均对提高模型准确性至关重要。结果表明,使用全部特征集与优化特征组合作为输入的模型性能存在显著差异。在V6到总生长阶段,使用全部特征输入的模型在训练集上通常表现出更优的性能(R2 = 0.807–0.924),但在测试集上的泛化能力较差(R2 = 0.576–0.847),表明全部特征方法可能面临过拟合的风险。此外,比较使用全部特征输入与优化特征输入的XGBoost模型,发现全部特征模型在训练集和测试集上的R2值差异更大,表明其模型稳定性较低。因此,优化特征的模型整体性能优于全部特征模型。这表明,尽管全部特征模型能捕捉更全面的数据特征,但其有限的测试数据集增加了过拟合的风险。结果进一步确认了特征优化在提升小数据集模型性能中的关键作用。

在讨论不同生长阶段的春玉米生长动态分析部分,文章指出本研究开发了RFE-XGBoost模型,用于监测春玉米的CGI,输入包括UAV提取的光谱数据,如植被指数和波段反射率。图8展示了春玉米不同生长阶段CGI的时空分布模式。研究发现,滴灌条件下春玉米的CGI在不同生长阶段表现出显著的时空变化。在春玉米的V6到V12阶段,CGI分布图显示出显著的差异。在V6到V12阶段,CGI分布图中的生长模式异质性显著。在6月,作物处于快速生长期。不均匀的灌溉和气象因素(如极端高温和低降雨量)对作物生长动态产生差异性影响,导致显著的空间异质性。其次,在V6阶段,CGI的变化与显著的土壤背景噪声相关,由于该阶段植被覆盖度较低(0.36 < LAI < 0.62),导致UAV影像中存在过多的裸土,最终降低了模型准确性。在R2到R6阶段,研究区域内的生长差异逐渐减小,但中心区域的生长性能较差。这主要是由于R2阶段的灌溉量增加,同时频繁出现极端风天气,这些因素共同导致了玉米植株的倒伏。此外,该生长阶段的气候特征为高温和干旱,导致该区域广泛出现玉米锈病和玉米螟虫(见图9c和9d)。研究发现,R2和R6阶段的CGI与作物产量具有显著相关性。基于R6阶段CGI数据构建了玉米产量和水分生产力的时空分布图。R2和R6阶段的CGI时空分布模式与玉米产量和水分生产力的分布模式相似。研究区域的中心区域表现出较低的产量和水分生产力,这与实际观测一致。在全球气候变暖的背景下,西北地区可能面临持续或突发的干旱事件。基于UAV的作物监测可以帮助减轻季节性极端天气的影响,降低弱苗和产量损失的风险。

在讨论不同集成机器学习模型的性能差异部分,文章指出在过去五年中,许多研究者对随机森林(RF)、CatBoost、AdaBoost和LightGBM等模型进行了广泛研究。这些模型在处理非线性问题和多维特征空间时表现出良好的适用性,但仍面临预测春玉米CGI的挑战。本研究对XGBoost模型与替代模型(包括RF、CatBoost、AdaBoost和LightGBM)进行了性能比较分析。为了确保研究的可靠性,所有模型均采用贝叶斯优化调整超参数,并采用5折交叉验证防止过拟合。图9比较了这些模型在训练集和测试集上的性能。如图10(a)和(c)所示,在V6阶段,CatBoost和XGBoost模型在训练集上表现出良好的拟合性能(R2分别为0.566和0.504),两者在RMSE和MAE值上的差异较小。然而,CatBoost模型在测试集上的表现较差(R2 = 0.496)。RF模型在训练集(R2 = 0.477)和测试集(R2 = 0.508)上的表现次优,而LightGBM模型的整体表现最差。如图10(b)和(d)所示,使用优化特征输入的模型在训练集和测试集上的准确性显著优于使用全部特征输入的模型。其中,CatBoost模型在训练集上表现出极好的拟合性能(R2 = 0.876),但其测试集准确性仍相对较低(R2 = 0.517),表明其存在过拟合问题。尽管RF和LightGBM模型表现出一定的改进,但它们的表现仍不如XGBoost模型。图10(a)和(c)显示,在V12阶段,RF、CatBoost、AdaBoost和XGBoost模型在训练集上均表现出良好的拟合性能(R2 > 0.7),但CatBoost模型的RMSE和MAE值较高。在测试集上,RF和XGBoost模型的表现优于CatBoost和LightGBM模型,R2值范围为0.674–0.723。图10(b)和(d)显示,与使用全部特征变量的模型相比,使用优化特征变量的模型在训练集和测试集上的R2、RMSE和MAE值的差异较小。这表明,特征选择有效缓解了模型的过拟合问题。此外,研究显示,使用优化特征变量的模型在总生长阶段表现出显著的性能提升,R2值达到0.863。这表明,尽管使用全部特征变量的模型能够捕捉更全面的数据特征,但其有限的测试数据集增加了过拟合的风险。因此,优化特征的模型在整体性能上优于全部特征模型。这表明,虽然全部特征模型能够捕捉更全面的数据特征,但其有限的测试数据集增加了过拟合的风险。研究进一步确认了特征优化在提升小数据集模型性能中的关键作用。

在讨论其他潜在影响模型性能的因素部分,文章指出本研究在V6–R6阶段使用了200个数据集,而在总生长阶段使用了800个数据集。尽管所使用的数据集规模相对较大,但数据量和多样性仍需进一步扩展以满足机器学习的需求。有限的数据集规模和单一类别的数据组成在一定程度上限制了模型的泛化能力。研究中的数据采集过程面临采样难度大和效率低的挑战,包括采样点位置、天气条件和人力有限等因素。因此,大规模的春玉米采样实验在当前研究实践中仍较为罕见。除了数据采集的挑战,数据一致性问题也仍然存在。尽管所有采样器均为研究专业人员,但采样技术和方法仍存在差异。在从UAV影像中提取像素值用于模型构建时,异常的微尺度像素值可能会对模型性能产生干扰。本研究采用了重采样技术,将UAV像素分辨率从0.05米调整为1米,有效降低了噪声数据对模型性能的影响。尽管机器学习算法对噪声具有一定鲁棒性,但UAV影像中的异常像素值仍可能成为模型性能下降的潜在风险因素。

在与现有文献的比较部分,文章指出在过去五年中,许多研究人员对RF、CatBoost、AdaBoost和LightGBM等模型进行了广泛研究。这些模型在处理非线性问题和多维特征空间时表现出良好的适用性,但仍面临预测春玉米CGI的挑战。本研究对XGBoost模型与替代模型(包括RF、CatBoost、AdaBoost和LightGBM)进行了性能比较分析。为了确保研究的可靠性,所有模型均采用贝叶斯优化调整超参数,并采用5折交叉验证防止过拟合
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号