基于SWin Transformer和YOLOv9-PANet的高粱作物分类与分割方法研究及其在精准农业中的应用

【字体: 时间:2025年09月24日 来源:Frontiers in Plant Science 4.8

编辑推荐:

  本综述系统提出了一种集成Shifted Window Transformer(SWT)、YOLOv9-c路径聚合网络(PANet)和SegFormer的深度学习框架,实现了高粱作物的高精度分类(准确率1.00)、定位(mAP最高达0.996)和分割(IoU 0.8973)。该研究通过优化超参数(如patch size=2×2、学习率1e-3)和引入注意力机制,显著提升了对复杂环境下高粱作物表型分析的准确性,为智慧农业中的作物病害监测和产量预测提供了技术支撑。

  

引言

全球作物生产正面临高温和极端天气等气候挑战,这些极端条件导致作物受损。高粱作为全球五大谷物之一,是许多发展中国家的主食作物。由于其富含纤维、蛋白质和必需矿物质,且具有独特的植物化学成分,能降低慢性疾病风险,高粱被视为应对恶劣气候条件的关键作物。然而,传统的育种方法和复杂环境降低了生产的紧迫性。表型分析对于作物改良至关重要,但存在研究空白阻碍进展。

随着图像处理和机器学习领域的进步,深度学习解决方案有助于作物病害的早期检测并通过及时预测提高准确性。尽管已有高粱作物分类的研究,但针对高粱病害识别的研究很少。本研究核心贡献包括:提出三种模型用于分类、定位和分割;基于选定层和最优超参数提出SWIN模型;应用ResNet50作为骨干网络进行特征提取,并传递至YOLOv9-c、PANet和检测头;设计基于Transformer的SegNet模型并在选定超参数上从头训练。

相关研究

研究中使用小型无人系统(UAS)收集高分辨率图像,证明在大田作物中的高效性。提出基于深度学习的ResNet架构模型,用于识别叶部病害如焦斑病、炭疽病和锈病。实验使用图像掩膜聚焦于病害相关特征,提出的模型展示了报告的准确性。另一种影响高粱作物的重大病害是炭腐病(CRS),EfficientNet B3和全卷积网络(FCN)在检测CRS方面达到86.97%的高准确率,分割方面FCN显示97.6%的准确率。

卷积神经网络基于AlexNet用于高粱检测,模型达到97%的准确率。基于高光谱成像(HIS)技术的快速无损模型用于检测高粱中的农药残留,实验数据包括一组经农药处理的高粱和三组未经处理的高粱,模型获得97.8%的准确率。研究中基于云端的深度学习算法用于提取表型性状并进行分割,手动测量的表型性状用于验证提取的表型性状,名为PointNet++的模型表现最佳,达到91.5%的准确率。

智能手机捕获的图像用于检测高粱圆锥花序和籽粒数估计,通过智能手机捕获的图像全部手动标记和增强,基于Detectron2和YOLOv8的模型进行训练,分别显示75%和89%的准确率。采用Split-Attention Networks的新方法用于航空图像病害检测,基于像素的方法用于将每个像素分类为健康或易病,提出的模型达到89.04%的F1分数。

YOLOv8检测器用于早期检测秋粘虫害虫以防止损害并增强作物安全。设计DINO Transformer(Swin骨干与ResNet-101)、检测Transformer(DETR)、YOLOv8、EfficientNet B4和WeedSwin Transformer模型用于杂草检测。检测模型如Faster R-CNN with FPN、YOLOv5和YOLOv7用于分类和检测高粱中发现的多种瓢虫。设计结合YOLOv8s、Gold模块和LSKA注意力的模型以增强高粱穗的检测。UNet模型以ResNet-34作为特征提取器用于分割并获得89%的测试F1分数。VGG-16模型与注意力模块和通道空间卷积模块集成到U-Net中,为作物分类提供0.78的F1分数,该模型表现优于传统U-net和Deeplabv3+模型。

proposed methodology

提出的方法包括三种深度学习模型:用于分类的Swin Transformer(SWT)、用于定位的YOLOv9-c和用于高粱分割的SegNet Transformer。详细的方法步骤可视化展示。在图中,提出的SWIN Transformer模型对高粱、禾草和阔叶杂草图像进行分类。为定位高粱叶,YOLOv9-c模型在超参数上训练。提出的SegNet Transformer模型由编码器/解码器组成以分割高粱区域。

高粱病害分类

Swin Transformer(ST)是一种分层Transformer,基于移位窗口测量表示。通过将自注意力测量限制在非重叠局部区域,同时允许跨窗口连接,提高了性能。提出的Swin Transformer由九层组成:输入、补丁嵌入(PE)、两个Swin Transformer(ST)、补丁合并(PM)、全局平均池化(GAP)和密集层(DE),用于分类高粱、禾草和阔叶杂草。

Swin Transformer模型基于视觉Transformer工作,专注于窗口区域的局部自注意力并分层提取特征,其中补丁嵌入层将数据保护在低维空间中。ST模型在非重叠窗口中计算注意力。在多移位窗口中,通过像素循环移位输入补丁 before using window multi-scale attention,最大化跨窗口交互。注意力计算后,补丁输出移位回原始位置。注意力后,应用多层感知器(MLP)跨维度修复特征。

其中W1、W2表示权重,b1、b2表示偏置。每层添加归一化以稳定模型训练。在补丁合并中,通过合并相邻补丁创建分层结构以减少空间分辨率并增加特征深度。提取特征后,全局池化使用方程 collapse spatial dimensions。最终输出通过应用带有softmax激活的密集层计算。

高粱病害定位

假设的YOLOv9-c将输入传递 through a neural network designed to recognize and categorize objects in real time。模型中使用的卷积层用于提取特征,随后是预测图像中各种对象的边界框和概率的层。对于YOLOv9-c模型,准备标注数据,进行训练,并微调超参数以实现最佳性能。在训练过程中,图像传递到网络,网络基于预测和标注掩膜计算损失。最后,模型基于反向传播算法更新权重。测试图像传递到训练模型以高速度和准确性预测正确类别标签。

YOLOv9-c版本在高粱图像上训练,具有地面标注掩膜,批大小为8,周期为100。YOLOv9-c架构展示。ResNet50模型包括50层基于残差学习,具有跳过连接,有助于缓解梯度消失问题。ResNet50的初始层包括卷积层(7×7,步长=2,填充=3)。输入形状为224×224×3。应用卷积层后,输出为112×112×4。该层用于提取低级特征,如纹理和边缘。使用ReLU激活实现非线性。应用最大池化,窗口大小为3×3,步长为2,填充为1。最终输出形状为56×56×64。

第二阶段涉及残差学习,包括四个阶段。每个阶段由多个残差块组成,包含卷积与1×1滤波器以减少维度。应用3×3滤波器大小的卷积进行特征提取。再次使用1×1卷积扩展卷积。最后,使用跳过连接添加输入以改善/增强梯度流。在第一阶段,包括21至23层,输入大小为56×56×64。三个残差块,每个具有滤波器大小分别为1×1、3×3和1×1,具有64和256通道。输出为56×56×256。

在第二阶段,包括31至34层;此阶段输入大小为56×56×256。四个残差块具有滤波器大小1×1、128、3×3、128、1×1、512。最终输出形状为28×28×512。在第三阶段,输入形状28×28×512传递到六个残差块。每个块具有滤波器大小1×1、3×3和1×1,具有1024输出形状, resulting in a 14×14×1024 output。在第四阶段,输入大小为14×14×1024,包括三个残差块,每个包含滤波器1×1、3×3和1×1,维度分别为512、512和2048。最终输出形状为7×7×2048。全局平均池层为7×7×2048。最终层维度7×7×2048转换为大小为2048的一维向量,将2048个特征映射到类别数。

使用YOLOv9提取特征

提取特征输出到Resnet50的最后一个卷积块(阶段4)应用。7×7×2048特征形状馈送到YOLOv9-c,使用路径聚合网络(PANet)处理这些特征以进行多尺度特征融合。检测头生成边界框坐标和类别概率。ResNet50使用顺序卷积层。

其中X是输入,w(l)权重,b(l)表示第l卷积层的偏置。其中Conv3和Conv4分别表示来自第3和第4层的特征。来自第4层的特征大小为(2048×7×7)作为输入大小224×224。

YOLOv9-PANet聚合

特征映射Fresnet由YOLOv9-c路径聚合网络(PANet)处理,其中Fup和Fdown分别表示来自上采样和下采样的特征。YOLOv9-c使用锚点预测边界框。Bprediction=σ(x).w+b。应用SoftMax激活预测类别标签。其中Zc表示(c)类别logits。使用YOLOv9-c存储库中的默认hyp.scratch-high.yaml,关键训练超参数给出。

这些超参数选择用于在农业数据集上实现高精度优化,并可编辑用于不同任务。使用YOLOv9-c配置文件(yolov9-c.yaml),设计用于紧凑高效的目标检测 with high accuracy。此变体包括以下组件:骨干:基于CSPRep3的特征提取器 with SPPF;颈部:PAN-FPN结构用于多尺度特征融合;头部:解耦头用于分类和定位;注意力:包括带有EMA和DFL的混合任务级联模块。此架构在模型复杂性和速度之间取得平衡,优化用于智能农业中的实时植物和杂草检测任务。

数据集在data.yaml文件中定义。数据分为三个文件:训练集(总标注数据的70%)、验证集(15%)和测试集(15%)。所有集分层以确保平衡的类别表示。通过在分割前使用固定种子随机洗牌,确保集之间无数据泄漏。训练参数总结给出。这些细节确认模型训练程序和实验设置被严格定义且可重现。这些规范明确包含在修订稿中以求清晰和透明。

高粱病害分割

视觉Transformer模型在任务上表现优于经典CNN,如语义分割。基于自注意力的Transformer模型考虑图像的整个上下文,提供更多信息以捕获全局依赖。相比之下,CNN仅依赖基于卷积的局部信息。应用Segformer模型与U-Net模型结合进行分割,其中使用Segformer提取特征。过程包括输入数据的空间编码和通道信息。

其中IH是高度,IW是宽度,C是输入图像的通道。segformer模型将输入图像处理为补丁嵌入并发送到多头注意力层。输入编码过程为,其中O是输出嵌入,P表示补丁,D表示嵌入维度。输入图像大小为128×128,补丁大小为16。补丁数O=(128/16)×(128/16)=8×8=64。图像分为总共64个补丁,补丁的维度为D=P×P=64×64=256像素(元素)。应用多头注意力通过多个注意力头捕获不同模式或依赖,这些头并行关注输入的不同部分。每个头独立输入,允许模型关注数据中的不同内容和特征。

其中Q是查询,K是键,V是值,dk是键向量维度。O乘以mQ、mK、mV然后Q、K、V:(64,dK)=(计算注意力),计算查询和键矩阵之间的标量点积。Q:(64,256),KT:(256,64)和最终结果QKT=(64,64)。矩阵大小为(64,64),表示每对补丁之间的注意力分数。然后,softmax应用于(64,64)矩阵以归一化注意力分数并将其转换为概率。输出通过将注意力分数乘以V矩阵值计算。输出形状为注意力分数(64,64)V=(64,256),具有与原始输入O相同的形状。

从segformer模型提取的特征传递到解码器模块,并且不同Transformer阶段获得的特征输出被连接。交叉熵损失在预测掩膜ypred和实际掩膜yactual之间计算。其中N表示像素数,C是类别数,ypred (i,c)表示像素I的类别c的预测概率。然后,使用学习率lr=5e-5和批大小8的Adam优化器训练模型。SegNet模型的架构展示。

因此,提出SegNet Transformer模型用于高粱分割。使用预训练的segformer-b0-finetuned-ade-512-512模型分割高粱区域,该模型在高粱图像上训练 with ground masks和选定超参数如10周期、8批大小、Adam、lr=5e-5和CrossEntropyLoss。

结果与讨论

高粱杂草分类数据集包含4,312张图像以解决作物杂草问题。高粱杂草分割数据集包含从252个样本中手动标注的5,555个片段,解决分割问题。使用五个高粱定位数据集。高粱检测数据集仅包含一个高粱类别,总共126张图像,包括88张训练、24张验证和14张测试图像。SGH定位数据集包括748张由堪萨斯州立大学准备的图像,其中420张用于训练,40张用于验证,20张用于测试。高粱叶定位数据集包括1,192张图像,其中982张用于训练,70张用于测试,140张用于验证。数据集包含147个高粱圆锥花序和籽粒计数。高粱籽粒头数据集包含三个文件夹:训练、测试和验证,其中1,500张图像用于训练,102张用于验证,21张用于测试图像。

为了支持提出方法的鲁棒性,数据集描述包括详细统计,如类别分布、图像分辨率和环境变异性。这些数据集反映 diverse real-world conditions such as varying lighting, occlusions, and backgrounds,使其适合训练 resilient deep learning models。使用数据集的详细总结提供。

提出的分类、定位和分割模型在NVIDIA GeForce RTX 4060 Ti GPU(16 GB VRAM)上执行,利用 approximately 2.6 GB内存 with average GPU utilization of 62%。这些观察确认模型的计算效率。当前实现展示快速处理速度, approximately 2.1 ms/image用于分类,7.8 ms/image用于YOLOv9-c定位,和13.5 ms/image用于基于Transformer的分割。实时部署和边缘或嵌入式系统优化计划用于未来工作以进一步验证操作田间条件下的性能。

实验#1:高粱分类

提出的ST模型将数据分类为高粱、禾草和阔叶杂草。模型训练40周期,训练和验证的损失率绘制。在图中,在40周期,训练损失为0.30,验证损失小于0.40。

高粱杂草分类数据集包含三个子文件夹:train、valid和test,其中每个文件夹有三个类别,如高粱、禾草和阔叶杂草。训练数据包含1,404、1,467和1,441张高粱、禾草和阔叶杂草类别的图像。验证数据包括281、293和288张三个类别的图像。测试数据包含140、147和144张三个类别的图像。

对于分类,在本研究中,训练和验证文件夹合并创建单个文件夹。训练文件夹包含1,404+1,467+1,441=4,312张图像,验证文件夹包含281+293+288=862张图像。合并训练和验证文件夹后,图像总数为5,174。测试文件夹包含140+147+144=431张图像。应用增强方法如垂直/水平翻转、旋转、缩放等以增加图像数量。增强后,训练图像总数为36,635,测试图像为3,003。两个独立文件夹,训练和测试,传递到提出的分类模型进行训练,模型性能在3,003测试数据上评估。

类似地,计算分类结果,其中整个训练和测试数据合并到单个文件夹并使用0.2保留验证分割为训练和测试集。基于模型性能的混淆矩阵可视化。性能指标使用混淆矩阵计算,提供。在表中,对于高粱类别,达到0.90精度、1.00召回率和0.94 F1分数。在禾草类别,获得1.00精度、0.94召回率和0.97 F1分数。类似地,在阔叶杂草类别,获得1.00精度、0.94召回率和0.97 F1分数。三个类别的总体准确率为0.96。增强后,数据在每个类别中平衡,提高了分类结果。分类模型的复杂统计分析给出。

基于混淆矩阵的统计结果显示总体准确率96.3%。准确率的95%置信区间为[95.59%, 96.95%],卡方检验p值<0.0001。Cohen’s kappa为0.944, indicating excellent agreement beyond chance。Matthews correlation coefficient (MCC)为0.946, indicating high model reliability across all classes。这些结果证明模型的强预测性能,同时通过McNemar’s test确认其表现与完美分类器 statistically different。

ROC也在每个类别上单独计算并绘制。在图中,显示高粱的AUC类别1.00,禾草0.99,阔叶杂草1.00。提供 achieved results的比较。在表中,应用U-net模型在RGB高粱图像上进行检测,准确率91.0。使用HierbaNetV1模型,包括72层用于高粱杂草分类,准确率98.6%。应用全卷积(FCN)和EfficientNet-B3网络用于高粱杂草检测。FCN与EfficientNet-B3相比提供更好结果,准确率分别为86.97%和97.76%。DenseNet-169模型的特征微调用于分类,并使用LIME和GradCam方法可视化最优特征。然而,与现有模型相比,提出ST模型并在最优层和超参数上从头训练,提供更好结果。

实验#2:高粱定位

在本实验中,使用YOLOv9-c模型的局部化高粱区域在100周期和8批大小上训练。定位结果在四个基准高粱数据集上以召回率、精度和mAP50计算,列出。表提供SGH和高粱叶检测数据集的定位结果。在SGH数据集上实现的结果为1.00精度、0.995召回率和0.996 mAP50。在高粱叶检测数据集上,结果为0.980精度、0.976召回率和0.982 mAP50。然后,在高粱圆锥花序数据集上实现0.931精度、0.980召回率和0.961 mAP50。类似地,在高粱籽粒头数据集上获得1.00精度、0.960召回率和0.898 mAP50。提出的方法更准确地定位了高粱和高粱叶。提出的模型以最高平均精度(mAP)定位高粱籽粒头,展示。

可视化结果显示,在SGH和高粱叶检测数据集上以最高预测分数定位所需区域。实现的结果以图形绘制。结果比较描绘。应用CNN模型定位高粱籽粒头,实现0.426 mAP。应用YOLOv5定位高粱圆锥花序,提供mAP 0.955。设计模型用于定位并获得0.995 mAP。与现有工作相比,应用YOLOv9-c模型使用选定超参数进行定位, yield the highest mAP scores among others。

实验#3:高粱分割

segNet Transformer模型在10周期上训练,每个周期每个步骤的训练损失率展示。损失率在10周期上计算,每个周期在50步骤内完成,10周期在总共500步骤内完成。每个周期后,损失率下降,如给出。使用提出的分割模型分割高粱。分割结果以交并比(IoU)和Dice分数(DS)计算给出。表 presents a comparison of segmentation results with an existing method。使用ResNet-50作为编码器和U-net解码器用于高粱杂草分割,DS为0.8373。与提出的SegNet模型相比,实现IoU 0.8973和DS 0.9459,这些结果显著更好。

设计轻量级MSEA-Net模型用于分割高粱杂草,实现IoU 0.8742。提出的分割模型产生预测和真实掩膜,说明。在图中,提出的分割模型更准确地分割高粱。在可视化结果中,预测掩膜 approximately close to the true mask。

消融研究

进行消融研究以选择分类模型的最优超参数,列出。在表中,实验结果 highlight the critical influence of hyperparameter selection on model performance。 Among the various configurations tested, the combination of embedding dimension=64, attention heads=8, and dropout rate=0.03 yielded the highest testing accuracy of 1.00, indicating its effectiveness for this specific classification task。然而,模型对这些超参数变化的敏感性 poses a notable limitation。 Small variations in embedding dimension, number of heads, or dropout rate resulted in considerable performance drops (e.g., accuracy decreasing to 0.949), underscoring the model’s reliance on precise tuning。

类似地,进行消融研究以最终确定定位和分割模型,给出。在定位模型中,在超参数组合上进行实验,包括学习率、权重衰减、图像分辨率和对象损失权重。使用mAP@0.5指标评估模型性能。在表中,选定的超参数,以粗体和斜体突出显示, yield the highest mAP score of 0.915 compared to the others。基于Transformer的SegNet模型(SegFormer-B0)使用不同学习率、优化器和损失函数评估,其性能使用Dice分数和IoU评估,展示。在表中,使用学习率5e-5、Adam优化器和CrossEntropy损失获得Dice分数0.932和IoU 0.894。

局限性与未来方向

提出方法的工作给出。提出方法的一个限制是过拟合风险, particularly given the training on a relatively small dataset of 4K-resolution sorghum images。高分辨率数据可能导致模型记忆精细细节而不是良好泛化, particularly when the dataset size is not sufficiently large or diverse。此外,环境变化如照明、阴影和图像中的噪声可能进一步挑战模型鲁棒性。

为解决此问题,未来验证将涉及在不同高粱田条件和季节下的跨数据集测试,以及应用正则化技术以改善泛化能力。尽管提出模型在高粱相关图像分类中展示高准确性,其向其他谷物作物如小麦、玉米或水稻的可转移性仍未探索。当前方法针对高粱 specifically optimized and fine-tuned,并且没有经验证据,不确定是否可以在具有不同形态特征和病害模式的不同作物类型上实现类似性能。此限制限制了模型在真实世界农业场景中的更广泛适用性。为克服此问题,未来工作应专注于通过在其他谷物作物数据集上测试模型来评估其泛化能力。领域适应技术、迁移学习或多作物训练策略也可以纳入以改善模型的多样性并确保跨多样农业条件的一致性能。

在未来,将通过半监督学习解决过拟合和环境变化以利用未标注数据并改善泛化。此外,将探索领域适应技术以增强模型在不同田间条件和未见环境中的鲁棒性,加强真实世界适用性。

结论

高粱作物检测过程由于高粱叶的形状、大小和纹理变异性以及迄今为止进行的有限研究而具有挑战性。在图像采集期间,噪声和照明也是高粱叶中的显著挑战,降低了算法的检测准确性。为克服现有挑战,提出三种模型以在噪声和照明图像中分类、定位和分割高粱叶,这是一个巨大挑战。基于选定层和超参数提出移位窗口Transformer神经网络,以分类不同类型的高粱叶。结果在公开可用的高粱杂草分类数据集上计算,准确率1.00。高粱叶的定位仍然是一项具有挑战性的任务;在堪萨斯州立大学准备的四个数据集公开可用,如SGH、高粱叶检测、高粱圆锥花序和高粱籽粒头。设计YOLOv9-c模型在最优超参数上并从头训练100周期。模型更准确地定位高粱叶并提供mAP分别为0.898、0.961和0.996。分割高粱叶由于存在噪声和照明图像而具有挑战性。为应对此挑战,提出Segformer Transformer神经网络并使用最优超参数从头训练, yield an IoU of 0.8973 and a Dice score of 0.9459。提出的模型与现有方法相比展示更好性能。本研究构成对该领域的重要贡献,并为未来学者建立和进一步发展提供坚实基础。此技术可能在未来扩展为实时应用并向公众提供以更广泛应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号