利用多光谱无人机影像和集成学习方法对松嫩平原盐碱草地的植被类型进行分类

《Ecological Informatics》:Classification of vegetation types in saline–alkali grassland of the Songnen Plain using multispectral UAV imagery and ensemble learning

【字体: 时间:2025年11月08日 来源:Ecological Informatics 7.3

编辑推荐:

  盐碱草甸植被分类存在高光谱相似性和类别不平衡挑战。本研究构建集成学习框架,融合随机森林、XGBoost、SVM和MLP等多模型,基于无人机多光谱影像提取192维特征(含42光谱指数、60LBP纹理、90GLCM纹理),采用SMOTE与数据增强平衡类别,五折交叉验证得宏平均F1达85.79%。特征分析表明红边指数ReCI在5×5和7×7窗口均值贡献最显著(F值>110),光谱特征贡献72.1%,纹理27.9%。验证了集成学习在数据稀缺环境下的有效性,为盐碱地植被监测提供新方法。

  在东北地区,盐碱草甸的植被分类一直面临重大挑战,主要归因于类别之间的光谱相似性高以及类别不平衡问题。这些问题严重限制了传统遥感方法的应用效果。本研究提出了一种基于高分辨率多光谱无人机(UAV)图像的堆叠集成学习框架,旨在解决这些挑战并提升盐碱草甸植被分类的准确性和可靠性。研究选取了中国黑龙江省的安达市和富裕县作为样本区域,这两个地区具有相似的植被群落和气候条件,同时具备典型的盐碱草甸特征。研究中关注了三种主要的植被类型:Leymus chinensis(LC)、Calamagrostis epigejos(CE)以及Scirpus triqueter(ST)。这些植被类型在研究区域中分布广泛,具有代表性,因此被选为分类目标。

为了应对分类中的挑战,本研究采用了一种多层次的解决方案。首先,通过集成多种基础分类器,包括随机森林(Random Forest, RF)、XGBoost、支持向量机(Support Vector Machine, SVM)和多层感知机(Multi-Layer Perceptron, MLP),并使用逻辑回归(Logistic Regression, LR)作为元学习器,构建了一个堆叠集成模型。该模型不仅能够有效处理复杂的光谱和纹理特征,还能够通过优化模型结构提升分类的准确率。其次,研究引入了192维的特征向量,包括多尺度的光谱指数和纹理描述符,以全面捕捉植被的特征信息。此外,为了缓解类别不平衡问题,研究应用了合成少数类过采样技术(SMOTE)和数据增强方法,通过生成更多样本,使模型在不同类别之间具有更好的泛化能力。

研究中,所有模型均采用五折交叉验证(Five-fold Cross-Validation)进行评估,以确保模型的稳健性和一致性。五折交叉验证的结果显示,堆叠集成模型在所有数据划分中表现出最高的平均宏平均F1分数(Macro-F1),达到85.79%,标准差为1.60%。这一结果表明,该模型在不同数据子集中的分类性能高度一致,具有良好的稳定性和泛化能力。此外,通过特征重要性分析,研究发现红边叶绿素指数(Red Edge Chlorophyll Index, ReCI)在5×5(L)和7×7(XL)窗口内的平均值是最重要的分类变量,其F统计值超过110,表明其在区分盐生植被类型方面具有显著的生理相关性。研究还指出,光谱特征在分类性能中占主导地位,贡献了72.10%,而纹理特征仅贡献了27.90%。这表明,在盐碱草甸植被分类中,光谱特征的差异是区分不同植被类型的关键因素。

本研究在方法上采用了系统化的流程,从数据采集到特征提取,再到模型构建和性能评估,确保了整个流程的科学性和可重复性。首先,使用DJI Mavic 3 Multispectral无人机平台获取多光谱图像,并通过图像拼接和光谱特征提取,确保了数据的完整性和一致性。接着,通过k近邻插值法(KNN)对缺失值进行处理,并对所有特征进行标准化,以消除不同特征尺度之间的差异。随后,采用数据增强和SMOTE方法对数据进行预处理,以提升模型的泛化能力和稳定性。在模型构建过程中,研究采用了堆叠集成方法,将多个基础分类器的输出整合,最终通过逻辑回归元学习器进行预测集成。为了提高分类的可靠性,研究还引入了置信度阈值(0.4),以过滤低置信度的预测结果,减少误分类的可能性。

研究中还对多种分类模型进行了性能比较,包括传统的树模型(如LightGBM、CatBoost和Extra Trees)以及先进的深度学习模型(如1D-CNN、Transformer 1D和1D-ResNet)。结果表明,堆叠集成模型在分类性能上表现最佳,其Macro-F1分数达到85.79%,而深度学习模型的表现则相对落后,特别是Transformer 1D和1D-ResNet的Macro-F1分数仅为16.76%和16.70%,显示出这些模型在当前数据集中的适用性不足。此外,研究还通过ROC曲线和PR曲线分析了模型的性能,发现堆叠集成模型在这些指标上均优于其他模型,其平均AUC(Area Under the Curve)达到96.50%,平均AP(Average Precision)达到93.88%。这表明,堆叠集成模型在分类精度和稳定性方面均表现出色,能够有效处理盐碱草甸植被分类中的复杂性。

在特征重要性分析中,研究发现光谱特征在模型中的贡献率最高,其中红边相关指数(如ReCI和NDRE)在所有尺度(S、L和XL)中均表现出显著的重要性。具体而言,ReCI_XL_mean和ReCI_L_mean的F值分别为116.1和110.1,显示出其在模型中的关键作用。这些特征的高重要性源于红边波段对叶绿素含量的高度敏感性,而叶绿素含量是植物健康状况和生理状态的直接指标。相比之下,纹理特征和光谱指数的标准差(StD)对分类的贡献相对较小,这表明在分类过程中,光谱特征的均值比标准差更具决定性。研究还指出,光谱特征的均值代表了植被类别的核心光谱身份,而标准差则反映了其内部光谱变化,可以作为纹理特征的统计代理。

此外,研究还通过消融实验(Ablation Study)评估了不同模型组件和特征对分类性能的影响。结果显示,数据增强和MLP分类器是提升模型性能的两个最关键因素。当移除数据增强时,Macro-F1分数下降至75.42%,而移除MLP分类器时,Macro-F1分数也降至75.96%。这表明,数据增强和MLP分类器对模型的稳定性和准确率具有重要影响。相比之下,移除光谱特征时,Macro-F1分数降至79.21%,说明光谱特征在模型中占据主导地位。研究还发现,纹理特征和光谱标准差对分类的辅助作用,其移除后的Macro-F1分数在81.00%到82.00%之间,表明这些特征在一定程度上可以增强分类的准确性。

在分类结果方面,研究对安达地区进行了详细分析,该地区作为研究的代表性样本,其分类结果反映了模型的整体性能。Otsu算法用于区分植被和非植被区域,结果显示,土壤区域占总面积的81.68%,而植被区域中的LC、CE和ST分别占67.30%、17.50%和8.00%。此外,分类结果中还包括“Other”类别,占总面积的7.20%,表示分类置信度低于阈值的像素点。这表明,模型在分类过程中能够有效识别低置信度区域,从而避免错误分类。

本研究的讨论部分指出,尽管堆叠集成模型在分类性能上表现出色,但仍存在一些局限性。首先,环境因素的变化对模型性能有显著影响,特别是在不同光照条件下,光谱特征容易发生偏差。其次,数据集的样本数量有限(348个点),这在一定程度上限制了模型的泛化能力。此外,研究还发现,模型在处理时间序列数据时存在一定的不足,因为当前数据集主要基于单次采集的图像,未能充分考虑植被在不同生长阶段的光谱变化。这些局限性为未来的研究提供了方向,包括在更稳定的光照条件下采集数据、增加样本数量以提高模型的泛化能力,以及引入时间序列数据以更全面地分析植被的动态变化。

综上所述,本研究通过构建一个系统化的堆叠集成学习框架,成功解决了盐碱草甸植被分类中的光谱相似性和类别不平衡问题。研究结果表明,该框架在分类精度和稳定性方面均表现出色,能够为盐碱草甸植被的精细化监测提供科学依据,同时为生态恢复和管理提供数据支持。然而,研究也指出了一些需要进一步改进的方面,如环境因素的影响、样本数量的限制以及对时间序列数据的处理能力。未来的研究应针对这些问题进行优化,以提高模型的适用性和实用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号