FM-SAM:基于YOLOv10与分割一切模型(SAM)的无人机影像单木树冠提取与分类新方法及其在森林监测中的应用
《Computers and Electronics in Agriculture》:FM-SAM: individual tree crown delineation and classification based on Segmentation Anything Model (SAM) and YOLOv10 in UAV imagery for forest monitoring
【字体:
大
中
小
】
时间:2025年11月04日
来源:Computers and Electronics in Agriculture 8.9
编辑推荐:
本文针对森林监测中单木树冠分割与树种识别任务对大量人工标注数据的依赖以及复杂环境下分割精度不足的问题,介绍了一种名为FM-SAM的创新框架。该框架巧妙融合了YOLOv10的实时检测能力与Segment Anything Model (SAM)的强大分割能力,并利用SAM构建半监督数据标注引擎。实验结果表明,FM-SAM在包含针阔叶树种的混合森林数据集上,其分割与分类的准确率、精确率、召回率等指标均优于DeepLabv3、YOLO系列等传统深度学习模型,显著提升了森林资源调查的自动化水平和精度,为大规模森林监测提供了高效解决方案。
森林作为地球陆地生态系统的主体,在维持自然平衡、提供生态服务和支撑生物多样性方面扮演着至关重要的角色。准确监测森林健康状况,及时获取树木的结构信息,对于森林资源的科学管理和保护至关重要。其中,单木树冠的分割与识别是一项关键技术,能够有效估算冠幅大小、树种、生物量以及树木生长状况,进而帮助确定最佳采伐间隔、评估资源可用性,以支持工业用材和能源作物的可持续收获。然而,传统的林业资源调查方法,如野外实地测量或人工航片判读,不仅耗时费力,而且难以获得准确全面的数据。
近年来,基于无人机(UAV, Unmanned Aerial Vehicle)的遥感技术为森林生态系统的精确测量带来了显著进展。与卫星和航空影像相比,无人机通常能提供更高空间分辨率的图像,并能实现低空稳定飞行,有效避开卫星影像中常见的云层遮挡,获得更高质量的图像和更详细的信息。尽管激光雷达(LiDAR)和高光谱传感器能提供高精度数据,但其高昂的成本使其在大规模林业数据收集中难以部署。因此,许多研究者转向使用机载高分辨率RGB传感器进行单木树冠提取和树种分类研究。
在深度学习广泛应用之前,经典的树冠分割算法,如局部最大值法、分水岭算法和区域生长法等,已被用于绘制林分特征图。然而,这些方法通常只关注像素级的颜色和纹理特征,而未考虑语义信息,这使得在复杂的多物种环境中同时分割树冠和识别树种变得困难。此外,这些方法通常是无监督的,在处理不同树冠对象时需要调整各种参数,参数设置严重依赖专业知识和实践经验,限制了其普适性。
深度学习,特别是卷积神经网络(CNN, Convolutional Neural Network)的广泛使用,为单木树冠分割和物种识别提供了新的途径,展现了卓越的性能和可靠的能力。目前,基于深度学习的树冠检测方法可分为单阶段(如YOLO系列、SSD)和两阶段(如R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN)检测方法。两阶段方法精度较高但需要更多计算资源和时间;单阶段方法速度快、资源效率高。然而,这些深度学习模型都是全监督模型,需要大量标注的树冠数据集进行训练。对于大规模、密集的单木树冠分割和物种检测任务,仍然需要大量的人力和时间来筛选和标注原始树冠数据集。此外,训练模型的准确性紧密依赖于数据集质量,这直接影响树冠检测结果的性能。
因此,在需要大规模、高精度树冠检测的场景下,不需要额外训练的模型和半监督的单木树冠图像分割算法将具有巨大价值。近年来,出现了一些专为分割任务量身定制的通用大模型,特别是SegGPT、Prompter和分割一切模型(SAM, Segment Anything Model)。这些通用模型通常在大量标注数据集上训练,为分割任务提供了强大的泛化能力。与传统的分割模型相比,SAM的一个关键特性是其灵活性。它可以针对特定的用例和领域进行微调,使其具有高度的适应性。此外,SAM可以作为可靠的伪标签生成器来指导分割任务。尽管SAM已显示出有希望的结果,但其在林业中的应用尚未广泛实践,其有效性仍有待充分探索。
最近,YOLO系列算法和像SAM这样的大型视觉模型都在遥感应用中展示了巨大潜力。然而,将像YOLOv10这样的最先进检测器与像SAM这样的强大基础模型协同集成,用于混合森林中单木树冠描绘这一特定、复杂任务,仍然是一个未被充分探索的领域。本研究旨在通过利用这两种模型来弥补这一差距,以解决林业应用中精确分割和高效标注的挑战。
在此背景下,北京林业大学的研究团队在《Computers and Electronics in Agriculture》上发表论文,提出了一种名为FM-SAM的新框架。该框架通过协同集成YOLOv10和SAM,解决了上述挑战。该框架的创新是双重的:首先,它利用SAM作为半监督分支来显著加速数据标注过程。其次,它建立了一个自动化工作流,其中YOLOv10的实时检测作为SAM的有效提示,而SAM则提供复杂树冠所需的精确、细粒度分割掩码。这种共生方法克服了独立模型的局限性,提高了树冠分割的效率和准确性,以更好地支持大规模森林资源评估和管理。
为开展研究,研究人员首先在北京昌平区梁庄村的人工林研究区(约1.37平方公里)利用大疆 Phantom 4 RTK无人机获取了高分辨率影像,并创建了一个名为MixedForestDataset的混合森林数据集,包含油松、银杏、国槐和欧洲黑杨等主要树种。他们提出了一种基于SAM和YOLOv10的半监督树冠图像分割框架FM-SAM。该框架包含两个主要部分:一个用于高效数据集创建的半监督数据引擎,以及一个用于在新图像上进行推理的最终检测和分割流程。
研究的关键技术方法主要包括:1) 数据采集与处理:利用无人机获取高分辨率正射影像,并通过半监督数据引擎(SAM生成初始掩码,人工快速 refinement)高效构建高质量标注数据集(MixedForestDataset)。2) 模型集成:构建FM-SAM框架,首先使用YOLOv10进行实时的树木检测并生成边界框,然后将这些边界框作为提示(prompt)输入到经过微调(fine-tuning)的SAM模型中,由SAM进行精细的像素级分割。3) 模型训练与评估:在NVIDIA RTX 4090 GPU等硬件上训练YOLOv10检测器和微调SAM模型,并使用准确率(Accuracy)、交并比(IoU, Intersection over Union)、召回率(Recall)、精确率(Precision)、F1分数(F1-score)以及生产者精度(PA, Producer's Accuracy)和用户精度(UA, User's Accuracy)等指标对模型性能进行全面评估。
实验结果表明,FM-SAM在树冠分割方面表现优异。对于针叶树种油松、银杏和国槐,其分割精确率在89.91%到95.83%之间,召回率在89.83%到95.54%之间,F1分数在90.60%到94.19%之间,准确率均超过89%。对于阔叶树种欧洲黑杨,模型也表现出较高的精确率(92.29%)和F1分数(91.11%),尽管其召回率相对较低(89.38%)。这表明FM-SAM能够有效处理不同树种的冠层结构。
在树种分类方面,FM-SAM也展现出强大的性能。油松的用户精度(UA)最高,达到0.9554,表明对该树种的分类非常精确。银杏、国槐和欧洲黑杨的用户精度分别为0.9131、0.8983和0.8938。同时,所有树种的生产者精度(PA)均超过0.89,其中油松为0.9288,国槐达到0.9583,欧洲黑杨为0.9292,银杏为0.8990。这反映了模型能够准确检测各类树种实例,且其预测结果可靠。
在树木计数方面,FM-SAM对油松的预测误差为5.1%,银杏的误差仅为0.9%,表现出极高的计数准确性。对于国槐和欧洲黑杨,预测误差分别为12.8%和2.7%,虽然后者误差较低,但国槐的误差相对较高,表明在复杂冠层结构计数方面仍有提升空间。总体而言,模型对大多数树种的计数达到了高精度。
对FM-SAM框架的计算复杂度和推理性能分析显示,该框架由YOLOv10-X检测阶段和SAM(ViT-H)分割阶段组成。SAM阶段因其超过6.3亿参数的大型ViT-H主干网络而构成主要的计算瓶颈。端到端的推理时间平均约为165毫秒/图像,在分割精度和计算效率之间取得了良好平衡。
一项消融研究比较了使用原始(零样本)SAM和使用微调后SAM的FM-SAM框架性能。结果表明,微调SAM模型带来了所有关键指标的显著提升,准确率从89.12%提高到92.41%,IoU从81.45%提高到85.37%,F1分数从88.28%提高到92.10%。这证实了针对林业任务对SAM进行领域自适应微调的必要性和有效性。
与其他框架(如DeepLabv3系列、YOLOv5-seg、YOLOv8-seg)相比,FM-SAM在树冠分割方面取得了最高的准确率(92.41%)和F1分数(92.10%),并且在生产者精度和用户精度方面也普遍优于其他模型。可视化结果进一步表明,FM-SAM在密集分布区域能保持精确的冠层边界,而其他框架则可能出现过分割或无法保持结构连贯性。
通过模拟不同光照环境(亮度水平从0.1到1.7),评估了FM-SAM在不同亮度下的鲁棒性。结果显示,FM-SAM在整个亮度范围内保持了最稳定的性能,波动最小,峰值准确率超过92%。而DeepLabv3系列则表现出较大的波动性,特别是在低亮度水平下,突出了它们对光照变化的敏感性。
为了验证框架的泛化能力,研究在公开的外部数据集BAMFORESTS上进行了测试。FM-SAM在树冠分割方面达到了86.26%的F1分数,在所有关键指标上均优于YOLOv5x-seg和YOLOv8x-seg。这证明了FM-SAM能够泛化到新的地理区域、不同的传感器特征和新的森林结构,并非过拟合于其自建数据集。
分析也揭示了FM-SAM存在的一些错误分割情况,主要归因于图像质量的变化(如光照不均、风致树冠移动)、阔叶树冠不规则和重叠边界的形态学挑战,以及背景伪影和噪声的干扰。这些因素突出了需要增强预处理技术和更复杂的后处理策略来减轻此类错误。
研究也指出了当前研究的局限性,包括仅在一个外部数据集上进行了泛化验证,模型存在精度与实时性的权衡,以及未来可以探索参数高效微调(PEFT, Parameter-Efficient Fine-Tuning)技术等。这些为未来的研究指明了方向。
本研究提出的FM-SAM框架,通过协同集成YOLOv10和SAM,有效解决了森林监测中单木树冠分割与树种识别面临的高精度标注数据依赖和复杂环境分割精度不足的核心挑战。框架创新性地利用SAM作为半监督数据引擎大幅提升了标注效率,并通过YOLOv10与微调后SAM的协同工作流,实现了在混合森林环境中高精度的树冠分割和树种分类。广泛的实验验证、与其他先进模型的对比、在不同光照条件下的鲁棒性测试以及在外部数据集上的成功泛化,均证明了FM-SAM的优越性能和实用价值。该研究不仅为大规模森林资源调查与监测提供了一种高效、准确的自动化解决方案,推动了林业管理的智能化进程,也为将大型基础模型应用于特定遥感任务提供了有益借鉴。尽管在处理极端复杂冠层结构和进一步提升实时性方面仍有空间,但FM-SAM无疑代表了当前该领域的前沿水平,具有重要的理论意义和广阔的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号