利用无人机(UAS)获取的数据,评估集成机器学习方法和特征优化技术在绘制泥炭地植被图方面的效果

《International Journal of Applied Earth Observation and Geoinformation》:Evaluating ensemble machine learning and feature optimization for mapping peatland vegetation using UAS-derived data

【字体: 时间:2025年10月17日 来源:International Journal of Applied Earth Observation and Geoinformation 8.6

编辑推荐:

  本研究利用无人机多光谱数据、植被指数和数字高程模型,通过超参数优化和SHAP特征重要性分析,比较了随机森林、XGBoost、LightGBM和CatBoost四种集成学习算法在泥炭地植被分类中的性能。结果显示,优化后算法分类准确率提升至86-87%,其中DSM和Red Edge波段对分类影响最大,CatBoost在区分莎草类植被表现最佳,RF在区分苔藓草坪效果更优。研究证实超参数优化和可解释性分析对提升泥炭地植被分类精度和模型透明度至关重要。

  在当前研究中,科学家们聚焦于利用无人机(UAS)获取的高分辨率多光谱图像、植被指数以及数字表面模型(DSM)来对泥炭地植被和地表覆盖类型进行分类。泥炭地作为重要的生态系统,其退化与恢复对全球生物多样性和生态系统服务具有深远影响。因此,对泥炭地植被进行精确的监测和分类是生态修复和评估工作的重要组成部分。研究采用多种集成机器学习算法,包括随机森林(RF)、极端梯度提升(XGBoost)、轻量级梯度提升(LightGBM)和类别提升(CatBoost),并探讨了不同超参数优化策略对分类性能的影响。此外,研究还结合了Shapley Additive Explanations(SHAP)技术,以提升模型的可解释性,明确哪些特征在分类过程中发挥了关键作用。

通过比较不同模型在默认超参数和优化超参数设置下的分类表现,研究发现,优化后的超参数显著提升了整体分类精度,从81%提升至86–87%。尽管这些算法在总体表现上较为接近,但它们在处理特定植被类型时仍存在差异。例如,随机森林在区分草坪型泥炭(Lawn Sphagnum)方面表现更优,而CatBoost在表征棉草(Eriophorum vaginatum)和丘状泥炭(Hummock Sphagnum)方面展现出更高的准确性。这些结果表明,选择合适的算法和优化超参数对于提升分类性能至关重要,特别是在处理具有高度光谱相似性的植被类型时。

研究进一步分析了不同特征在分类中的作用,发现DSM(数字表面模型)和红边波段是最重要的影响因素。DSM提供了地形信息,有助于区分具有相似光谱特征但位于不同微地形位置的植被类型。而红边波段由于对叶绿素含量和植被压力的敏感性,对分类具有显著贡献。这些特征的识别和利用,使得模型能够更准确地判断不同植被类型的分布情况。然而,不同模型对其他特征的依赖程度也有所不同,例如随机森林和CatBoost更倾向于使用直接的光谱波段,而XGBoost和LightGBM则更依赖植被指数。这种差异揭示了不同算法在处理植被分类任务时所采用的不同策略,也进一步说明了在生态监测和修复中,需要结合具体植被类型和环境条件选择合适的模型。

为了提高分类的准确性和可解释性,研究采用了Optuna进行超参数优化,并结合SHAP进行特征重要性分析。Optuna通过贝叶斯优化和自动化剪枝机制,有效减少了不必要的参数评估,提高了搜索效率。这一过程不仅有助于提升模型性能,还能减少过拟合的风险,增强模型的泛化能力。而SHAP技术则通过量化每个特征对模型预测的平均绝对影响,为模型的解释性提供了更加直观和细致的视角。例如,某些特征在全局上可能重要性较低,但在特定植被类型中却表现出显著的贡献。这种特征依赖性的分析有助于理解模型是如何处理复杂的光谱和地形数据的,并为未来研究提供指导。

此外,研究还探讨了不同算法在分类精度上的表现差异,以及这些差异背后的可能原因。尽管所有模型在总体精度(OA)上都表现出较高的性能,但在某些植被类别上,如草坪型泥炭(Lawn Sphagnum)和丘状泥炭(Hummock Sphagnum),随机森林的表现优于其他算法。而在棉草(Eriophorum vaginatum)和成熟丘状泥炭(Eriovagi)的分类上,CatBoost则显示出更高的准确性。这种差异可能与各个模型在处理光谱相似性以及数据分布不均衡问题时所采用的策略有关。例如,CatBoost在处理小样本和光谱重叠时表现出更强的鲁棒性,而随机森林则在识别光谱细节方面更具优势。

在研究过程中,研究团队还对分类结果进行了多方面的验证和评估,包括混淆矩阵、用户精度(UA)、生产者精度(PA)以及互模型一致性指标,如Cohen’s Kappa系数和Jaccard指数。这些指标不仅帮助评估分类的准确性,还揭示了不同模型在空间分布上的差异。例如,在某些区域,CatBoost和XGBoost的分类结果显示出较高的重叠度,而随机森林则在某些特定植被类型上表现出独特的空间分布模式。这种空间差异进一步说明了模型在处理不同植被类别时的泛化能力,也强调了在生态监测中,选择合适的模型和参数对于准确反映生态系统状态的重要性。

研究还指出,尽管超参数优化和特征重要性分析在提升分类精度方面发挥了关键作用,但它们的应用仍需结合具体数据集和研究目标。例如,在植被类别之间存在显著光谱差异的情况下,优化可能带来的提升有限;而在光谱特征相似的区域,优化则显得尤为重要。此外,特征重要性分析虽然能够揭示模型在特定植被类型上的决策依据,但其结果可能受到数据集特性和传感器类型的影响。因此,未来的研究需要进一步探讨不同环境条件下这些方法的有效性,并探索如何在不同生态背景下优化分类流程。

最后,研究强调了在泥炭地植被分类中,使用高分辨率遥感数据和机器学习技术的结合具有重要的应用价值。通过优化模型参数和特征选择,可以更有效地监测泥炭地的退化和恢复过程,为生态修复提供科学依据。同时,提升模型的可解释性,有助于生态学家和管理者更好地理解分类结果,并制定更加精准的恢复策略。研究还指出,未来的工作可以进一步扩展到更大范围的泥炭地生态系统,以评估不同模型在复杂环境下的表现,并探索更高效的分类方法,如基于对象的图像分析(OBIA)或其他融合技术,以提升分类的鲁棒性和适用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号