
-
生物通官微
陪你抓住生命科技
跳动的脉搏
YOLO-LF模型:多尺度信息融合与小目标检测在农业病害识别中的创新应用
【字体: 大 中 小 】 时间:2025年09月12日 来源:Frontiers in Plant Science 4.8
编辑推荐:
本文综述提出基于YOLOv11改进的YOLO-LF模型,通过引入CSPPA(跨阶段金字塔注意力)、SEA(SeaFormer注意力)和LGCK(局部高斯卷积核)模块,显著提升复杂背景下农作物小尺度病斑检测的精度与效率。实验表明,该模型在Plant Pathology 2020-FGVC7和2021-FGVC8数据集上mAP@0.5%和mAP@0.5–0.95%指标均优于主流模型,为农业病害智能监测提供高效解决方案。
引言
农业作为国民经济的基础产业,其作物病害的频繁发生对粮食安全、农产品质量及农业生态稳定性构成严重威胁。据联合国粮农组织(FAO)统计,全球每年因病虫害导致的作物产量损失达20%–40%,造成数千亿美元的直接经济损失。传统作物病害识别依赖农业专家经验,存在人力成本高、效率低、主观性强等缺陷,难以满足现代农业智能化与精准化需求。因此,发展高效、自动化的作物病害检测技术成为智慧农业领域的重要研究方向。
近年来,基于卷积神经网络(CNN)的病害检测方法展现出强大的特征提取与图像识别能力,为作物病害智能识别提供了新途径。相关研究从早期的图像分类任务逐步扩展到目标检测、实例分割等更精细的任务,实现了对病斑的精准定位与识别。其中,YOLO(You Only Look Once)系列作为端到端的单阶段目标检测算法,凭借检测速度快、结构轻量、部署灵活等优势,成为农业病害检测的主流选择之一。
基于CNN与Transformer架构的植物叶片病害检测方法在小目标检测任务中取得显著进展。Transformer架构中的条件生成对抗网络(C-GAN)在番茄病害检测中广泛应用,通过在DenseNet121上进行迁移学习,在PlantVillage数据集上对5类、7类和10类病害的识别准确率分别达到99.51%、98.65%和97.11%。在目标检测中,结合无监督训练与迁移学习的模型通过上采样网络与DETR(Detection Transformer)构建诊断模型,对柑橘黄龙病的识别率达到96.2%。此外,Swin Transformer采用分层窗口注意力机制,在多尺度特征捕获方面具有显著优势,尤其在复杂背景与噪声干扰的农业图像中表现突出,能够有效检测小尺度病斑区域。视觉Transformer(ViT)将图像划分为固定大小的图像块,利用自注意力机制捕获全局信息,有效处理背景复杂、遮挡严重的小病斑区域。可变形DETR(Deformable DETR)作为传统DETR模型的改进,引入可变形卷积与选择性注意力机制,提升了对小病斑区域的检测精度,通过动态调整感受野,更好地处理不同尺寸的目标。
在CNN架构中,YOLO系列模型因其高效的实时推理能力成为农业病害检测的主流方法。基于YOLOv5的轻量化模型通过对其主干网络与检测头进行优化,成功实现了多种作物病害的高效识别,并在大型公共数据集上取得显著的检测精度。这些改进使YOLOv5在资源受限条件下仍能保持较高精度,特别适用于移动设备与嵌入式设备上的病害监测。为进一步满足农业场景对实时性与部署便利性的需求,研究者对YOLO架构进行了进一步优化,引入高效网络模块,如将GhostNet、ShuffleNet等轻量卷积网络集成到YOLO主干网络中,有效降低了计算量与内存消耗,适应移动设备与边缘计算平台的实时检测需求。此外,为提升模型对复杂背景的适应性,YOLO系列融合了多种注意力机制,例如压缩激励(SE)模块通过自适应调整通道特征权重,聚焦于病斑区域,从而提升检测精度。在更复杂的背景下,CBAM(卷积块注意力模块)等结合空间与通道注意力的模块增强了模型在高噪声、光照变化和目标遮挡等挑战性环境中的适应性。
然而,现有YOLO系列模型在作物病害检测中仍面临一定挑战。首先,特征提取结构对小尺度病斑的响应能力不足,传统卷积网络在多尺度信息融合方面存在局限,导致小目标(如病斑)在下采样过程中被弱化,影响整体检测精度。其次,注意力机制设计相对简单,难以应对复杂的田间环境,现有方法往往侧重增强通道或空间维度的信息,缺乏跨尺度与局部空间信息的联合建模,限制了其鲁棒性。
为此,本文提出基于YOLOv11改进的轻量化病害检测模型YOLO-LF(YOLO with Lightweight Fusion),在保持YOLO系列高速检测优势的同时,通过优化特征提取结构与注意力机制,提升模型在复杂农业环境中的检测精度与泛化能力。一方面,引入CSPPA(跨阶段部分金字塔注意力)结构,该结构以较低计算开销增强主干网络中不同尺度病斑的表征能力,有效缓解小目标漏检问题,提升模型的语义完整性与细节保留能力;另一方面,引入SEA(空间增强注意力)机制,在特征融合过程中联合建模空间与通道信息,通过构建空间依赖感知路径与全局通道加权策略,引导模型聚焦病斑区域的显著特征,抑制背景干扰,进一步提升病害检测的鲁棒性与准确性。
本文的主要贡献包括:
提出YOLOv11的改进版本YOLO-LF,通过引入CSPPA、SEA与LGCK模块,提升农业病害检测任务中的小目标检测精度与模型效率,解决传统方法在复杂背景下小病斑检测的难题;
设计CSPPA模块,增强多尺度信息融合能力,优化模型的注意力机制,提升复杂场景下的检测性能;
在Plant Pathology 2020-FGVC7与2021-FGVC8数据集上的实验表明,所提模型在多项指标上显著优于现有主流模型,证明了该方法在农业病害检测中的有效性与实际应用潜力。
相关研究
基于CNN的植物病害检测研究
近年来,基于卷积神经网络(CNN)的植物病害检测技术在提升模型精度与检测效率方面取得显著进展。首先,部分研究将深度卷积神经网络(DCNN)与数据增强技术结合,提升模型的鲁棒性与泛化能力。通过引入图像旋转、缩放等数据增强方法,这些方法在小样本数据集上显著提升了性能,然而尽管识别准确率有所提高,模型在面对高噪声与复杂背景时性能仍显不足,且对不同植物种类的适应性较差。
其次,部分研究采用多任务学习(MTL)方法,将植物病害分类与定位任务结合,进一步提升检测性能。该方法通过任务间共享特征提取层,使网络学习更通用的特征,从而提升检测精度与训练效率,但这些方法需要大量计算资源,在处理大规模数据时存在一定瓶颈。此外,为应对小病斑检测,部分研究提出多尺度卷积神经网络(MSCNN),提取不同尺度的特征,提升对小病斑的检测能力。这些方法能有效处理多种尺寸的病斑,尤其在复杂背景与低对比度图像中表现良好,但多尺度特征提取过程的计算成本较高,导致实时性面临挑战。
随着研究深入,部分学者将卷积神经网络与图像分割技术结合,提出联合检测与分割模型。这些方法能够精准分割病斑区域,并结合深度学习模型进行病害识别,取得较好效果。尽管这些方法提升了病斑定位精度,但图像分割过程的计算复杂度与模型训练时间较长,限制了其实际应用。近年来,部分研究引入自注意力机制(如SE-Net与Transformer)强化网络对关键特征的关注,使模型更聚焦于病斑区域,提升检测精度。这些方法在复杂背景下表现出更好的性能,但仍面临计算复杂度高的问题,尤其在资源受限设备上需实时处理时。
此外,近期研究提出基于生成对抗网络(GAN)的模型,通过生成高质量合成图像增强训练数据的多样性,这些方法有效解决了数据不足的问题,但由于生成图像与真实图像间的差距,可能影响模型的泛化能力,尤其在具有特殊背景与光照条件的场景中,检测性能可能下降。为进一步提升农业病害检测中的小目标检测能力,部分方法借鉴医学图像分割技术的进展,如上下文感知双流金字塔网络(CANet),该方法原为医学图像分割设计,应对与植物病害检测相似的挑战,如目标尺度多样、背景复杂、目标间外观相似等。CANet包含双流金字塔模块与具备上下文感知的编码器-解码器模块,双流金字塔通过多分辨率输入版本与多尺度卷积单元捕获不同层的互补特征,这对学习多尺度小病斑特征尤为有帮助。此外,PIF-Net通过并行路径设计使网络能够同时处理多尺度的不同特征,并通过交互融合机制强化层间连接,从而提升对多样植物病害的检测能力。该网络不仅有效提取植物病斑的局部细节,还在复杂背景下保持高检测精度,尤其在面对小病斑区域时能够精准分割与识别病斑特征,进而提升农业病害检测的整体性能。
总体而言,基于CNN的植物病害检测方法在精度、鲁棒性与实时性方面均取得进展,但计算复杂度、数据多样性以及对不同植物种类的适应性等问题依然存在,如何在保证高精度的同时提升模型实时性与适应性仍是当前研究的主要挑战。
基于YOLO的植物病害检测研究
基于YOLO架构的植物病害检测研究经历了从YOLOv5到YOLOv11等多个版本的演进,各版本逐步提升了农业领域病害检测的精度与效率。YOLOv5引入CSPNet与跨阶段特征融合,增强检测精度与模型压缩能力,其高检测速度与小模型尺寸适用于移动设备与实时监测,但其在复杂背景下对小病斑的检测精度仍需提升。YOLOv6采用PANet与CSPDarkNet53,增强多尺度检测能力,通过多尺度支持与强化损失函数,在小病斑检测方面表现更好,但仍面临复杂背景中遮挡与光照变化的问题。YOLOv7引入EfficientRep与高效卷积,优化计算效率与检测精度,通过卷积重定向与数据增强技术提升多尺度目标检测性能,但其对复杂场景的适应性仍有限。YOLOv8引入高效集成技术与轻量卷积,提升整体效率,通过快速参数调优与结构优化加速训练过程,但其计算成本仍较高,尤其在资源受限设备上实时性仍是挑战。YOLOv9进一步优化模型,采用自适应卷积与新损失函数提升小病斑检测精度,其特征融合与多尺度卷积增强使其更适应复杂农业环境,但仍消耗相当计算资源。YOLOv10引入多任务卷积模型,提升多任务处理能力,通过细节优化与多尺度数据融合增强模型性能,但其训练仍需大量计算资源,尤其在大规模数据集上。YOLOv11在YOLOv10基础上引入CSPPA增强的特征图,显著提升病害检测精度,结合深度学习与网络优化器,尽管在训练大规模数据集时需大量计算资源,但其对小病斑检测与复杂背景适应能力显著增强。
本文提出的YOLO-LF模型通过引入CSPPA、SEA与LGCK模块,进一步提升小病斑检测的精度与效率。CSPPA模块增强多尺度特征融合,SEA模块强化对上下文与局部信息的注意力机制,LGCK模块增加模型对小病斑区域的敏感性。
方法
整体网络架构
本文提出的YOLO-LF模型基于YOLOv11改进,旨在提升农业病害检测任务中的精度与效率。该模型的网络架构主要分为Backbone、Neck与Head三部分,这些模块协同工作,实现高效的特征提取、融合与检测,使模型能够有效识别复杂背景下的病斑等目标。
在Backbone部分,YOLO-LF首先通过多个卷积层处理输入图像,该部分的主要任务是从图像中提取基础特征。图示第一部分包括一系列卷积(Conv)与池化(MaxPool2d)操作,逐步降低特征图的空间维度,同时强化对图像关键特征的捕获。此外,Backbone中采用CSPPA模块增强跨阶段信息流与多尺度特征融合,这对检测小尺度病斑尤为重要。同时,利用LDConv(局部卷积)模块提取局部特征,增强对小病斑区域的敏感性。SPPF(空间金字塔池化融合)模块用于将多尺度信息引入特征图,使模型能够处理不同尺寸的目标,这对检测复杂背景中的小病斑至关重要。
Neck部分负责有效融合Backbone提取的多尺度特征,为Head提供更精确的特征表示。在Neck模块中,堆叠多个CSPPA层,逐步增加特征图的分辨率,以更好地处理细节信息。Neck中还采用上采样(Upsample)操作,通过上采样恢复特征图的空间维度,确保细节信息不丢失。Concat操作用于合并不同层的特征图,充分利用多层特征信息。该部分的最终输出经过进一步卷积处理,为后续目标检测提供丰富而精确的特征。
Head部分负责基于Neck输出的特征图进行目标检测。具体而言,Head模块使用检测(Detect)操作识别目标区域并输出最终预测结果。模型采用CIOU(完全交并比)作为损失函数,帮助网络更精确地回归目标边界框坐标;同时,CLS Loss(分类损失)用于优化类别预测,确保模型不仅准确定位目标,还能正确分类。值得注意的是,YOLO-LF通过引入SEA(Sea Attention)模块进一步优化网络,该模块帮助模型更好地捕获图像中的上下文与局部细节,增强模型的注意力能力,尤其在复杂场景中。
通过改进YOLOv11,YOLO-LF模型引入了CSPPA、LDConv、SPPF、SEA等多种创新模块,显著提升了模型在农业病害检测中的能力。整个网络架构合理分配了Backbone、Neck与Head的任务,使模型能够高效执行特征提取、融合与目标检测,尤其适用于复杂背景中的多尺度、多特征病斑检测任务。
跨阶段部分金字塔注意力(CSPPA)结构
CSPPA结构是一种专为增强图像处理中多尺度信息融合能力而设计的深度学习架构,特别适用于农业病害检测任务。该结构通过引入跨阶段部分连接与金字塔注意力机制,解决传统卷积神经网络中存在的信息丢失与计算开销过大等挑战。其核心思想是通过跨阶段部分连接减少冗余计算,并利用金字塔注意力机制动态加权不同尺度的信息,从而提升模型在复杂环境中的鲁棒性与准确性。
CSPPA结构的主要组件是CSPPA Bottleneck,该部分由两个关键模块组成:LGCK(局部高斯卷积核)块与SFFN(空间特征融合网络)块。LGCK块通过应用局部卷积核与加权融合策略,增强模型对小尺度病斑的响应能力。具体而言,LGCK块采用基于高斯的加权机制,调整卷积核的中心与标准差来处理输入特征。该机制的核心公式为:
Φ(x) = ∑j=1m wj exp( ∥x - cj∥2 / 2σ2)
其中x代表输入特征图,cj为第j个卷积核的中心,σ为高斯函数的标准差,wj为第j个卷积核的权重,m为卷积核数量。
为进一步提升LGCK块的性能,引入动态调整机制,其中σ(高斯核的标准差)根据输入特征动态变化。该调整机制可表示为:
σ(x) = σ0 · (1 + λ · Var(x) / Max(Var(x)))
其中σ0为初始标准差,λ为调整系数,Var(x)为输入特征图x的局部方差,Max(Var(x))为所有特征图的最大方差。通过这种动态调整,卷积核的感受野根据输入特征的局部特性变化,增强模型对小病斑区域的适应性,尤其在目标区域小或背景复杂时。
SFFN块通过一系列卷积操作进一步增强特征表示能力。它采用1×1卷积与3×3深度wise卷积的组合,首先应用1×1卷积降低特征图维度并执行通道压缩,随后采用3×3深度wise卷积提取空间特征,最后使用1×1卷积进行特征融合,确保不同层的特征有效结合。这种设计不仅增强了模型捕获局部空间信息的能力,还降低了计算开销,提升模型在移动设备上的部署效率。SFFN块的计算过程可描述为:
Output = Norm(1×1 Conv(DWConv(3×3)))
在CSPPA模型中,金字塔注意力机制的引入使模型能够自适应地加权不同尺度的特征,从而改善多尺度信息融合。该机制通过学习得到的权重系数为每个尺度特征图分配重要性。金字塔注意力机制的加权过程如下:
A(x) = ∑i=1N αi · Fi(x)
其中A(x)代表最终加权输出,Fi(x)为第i个尺度的特征图,αi为第i个尺度的权重系数。该机制使CSPPA模型能够有效提取与融合不同尺度的信息,尤其在面对复杂背景与噪声干扰时,提供更精确的检测结果。
通过这些创新设计,CSPPA模型优化了传统卷积神经网络在小目标检测中的性能,特别针对农业病害检测任务。该结构的优势在于能够在显著提升检测精度的同时降低计算成本,尤其在多尺度信息融合与复杂背景处理方面。通过结合跨阶段部分连接与金字塔注意力机制,CSPPA模型不仅增强了对小目标的响应,还提升了整体检测的鲁棒性,使其成为大规模农业监测应用中有价值的工具。
SEA模块
SEA注意力(SeaFormer Attention)机制是SeaFormer架构的核心组件,通过上下文分支与空间分支分别处理全局与局部信息。该设计使模型能够捕获复杂任务(如农业病害检测)中的多维依赖关系,从而增强模型识别重要特征的能力。在此类任务中,有效结合全局上下文与局部细节对提升精度至关重要。
在SeaFormer架构中,输入特征图由两个分支处理:上下文分支与空间分支。上下文分支旨在捕获图像中的长程依赖关系,关注全局上下文信息;而空间分支专注于捕获细粒度局部细节。这种方式使模型能够在全局与局部信息间形成有效互补,从而提升检测精度。
具体而言,输入特征图表示为F ∈ ?H×W×C,其中H为图像高度,W为宽度,C为通道数。在上下文分支中,输入特征通过线性变换投影生成查询(Qc)、键(Kc)与值(Vc)矩阵。随后,通过查询矩阵与键矩阵的内积计算上下文注意力图Ac,以捕获全局依赖关系。计算公式如下:
Qc = F · Wq + bq
Kc = F · Wk + bk
Vc = F · Wv + bv
其中Wq、Wk与Wv为查询、键与值的投影矩阵,bq、bk与bv为对应的偏置项。上下文注意力图Ac计算如下:
Ac = softmax( Qc · KcT / √dk )
其中dk为键向量的维度,KcT为键矩阵的转置。
接下来,在空间分支中,特征图F通过卷积操作处理以捕获局部空间信息。具体而言,空间注意力图As通过卷积操作计算:
As = Conv2D(F, Ws)
其中Ws为卷积核。得到的空间注意力图As经过归一化以强调图像中最相关的空间区域:
As = As / ∑As
随后,上下文与空间分支的输出通过融合模块结合,得到 refined 特征图。在融合过程中,上下文与空间注意力图进行逐元素相乘,随后通过卷积操作进一步处理,得到最终融合特征图Ffusion:
Ffusion = Conv2D( Sigmoid(Ac × As), Wf )
其中Ac × As为上下文与空间注意力图的逐元素乘法,Wf为融合操作的可学习权重。
在注意力机制计算中,常使用矩阵乘法与注意力计算来评估查询与键之间的相似性。例如,查询矩阵Q与键矩阵K的内积产生注意力分数矩阵。为确保注意力权重的归一化,通常应用softmax函数:
Softmax(xi) = exi / ∑j exj
此外,在某些注意力机制中,尤其空间感知架构中,使用积分操作捕获全局依赖关系,这可表示为:
∫R A(x,y) dx dy
其中R为感兴趣区域,A(x,y)为该区域内的注意力图。
最后,经过融合与细化后,特征图通过上采样操作恢复至原始分辨率:
Fupsampled = UpSampling(Ffusion, scale)
总之,SEA注意力机制通过结合上下文与空间分支,使SeaFormer模型能够高效捕获图像中的全局与局部细节。在复杂任务如农业病害检测中,同时考虑全局上下文与局部空间信息至关重要,这种多维特征融合显著增强了模型的性能。通过这种设计,SeaFormer不仅强化了模型的注意力能力,还有效处理了空间与上下文信息的复杂性,为检测任务提供更精确的特征表示。
实验
数据集
本文使用的数据集包括Plant Pathology 2020 - FGVC7与Plant Pathology 2021 - FGVC8,两者均来自植物病理学领域的细粒度视觉分类(FGVC)挑战。这些数据集专为植物病害相关的图像分类任务设计,覆盖多种植物病害病斑,并提供丰富的标注数据,旨在推动植物病害检测技术的发展。
Plant Pathology 2020 - FGVC7数据集包含多种植物的病斑图像,我们选择了4种不同植物病害的标注。该数据集数据量大,有效支持深度学习模型的训练与验证。数据集提供病斑类型与位置的精确标注,为研究者提供丰富的多样性
生物通微信公众号
知名企业招聘