基于CBAM与分组卷积的实时检测Transformer在玉米幼苗识别中的应用与性能优化

【字体: 时间:2025年10月10日 来源:Frontiers in Plant Science 4.8

编辑推荐:

  本推荐介绍了一项创新研究:作者通过将卷积块注意力模块(CBAM)和分组卷积(Grouped Convolution)集成至RT-DETR架构,提出CBAM-RTDETR模型,显著提升了玉米幼苗在复杂农田环境下的检测精度与实时性能。该模型在mAP0.5(92.9%)、AR(64.4%)和FPS(87帧/秒)等关键指标上均优于现有方法,为智慧农业中的作物监测提供高效可靠的技术方案。

  
引言:
玉米作为中国主要粮食作物之一,其种植面积占全国粮食种植总面积的37.1%,对保障国家粮食安全具有战略意义。苗期出苗率是影响玉米种植、栽培及后续产量的关键参数,也是评价玉米品种质量的核心指标。传统人工监测方法耗时耗力、易出错,尤其在开放农田环境中难以实施。因此,实现田间环境下玉米幼苗的精准识别至关重要。
近年来,无人机(UAV)遥感技术凭借低成本、易操作和强抗干扰能力,在农业观测领域迅速发展。无人机可搭载多种传感器,包括可见光RGB、多光谱、高光谱和热红外相机,能够高效、无损地获取田间作物生长状态信息。然而,由于拍摄高度和角度等因素,无人机遥感图像中常包含大量小尺寸目标,尤其在复杂农业场景中,这些因素给图像的有效分析与识别带来显著挑战。
目前,基于深度学习的方法在作物图像数据处理与识别研究中取得显著进展。例如,有研究通过改进YOLOv8网络结构,提出高效快速的白菜幼苗计数方法;还有学者在YOLOv5中引入全局注意力机制(GAM),提升了无人机RGB图像中玉米幼苗的检测精度与速度。然而,主流检测模型如YOLO系列仍需手动设置先验框并依赖非极大值抑制(NMS)进行后处理,导致计算成本高且影响识别性能。
2020年,Facebook提出DETR(Detection Transformer),将目标检测重构为序列预测问题,消除了后处理中的阈值过滤与NMS步骤。但其参数量大、计算成本高。随后提出的RT-DETR(Real-Time DETR)在降低计算成本的同时实现了高效的端到端检测,但在小目标检测领域性能仍有提升空间。已有研究尝试通过改进RT-DETR结构增强小目标检测能力,例如引入EDF-FAM模块或结合膨胀卷积等操作,但在平衡精度与实时性方面仍面临挑战。
材料与方法:
实验田位于江苏省句容市,土壤类型为砂壤土,属亚热带季风气候。玉米于2024年6月17日播种,品种为“苏玉161”,种植密度为每公顷57,000株,行距和株距均为30厘米。图像采集使用大疆Mini 4 Pro无人机,搭载1.3英寸4800万像素可见光传感器,于2024年7月4日11:30在晴朗无风条件下进行。飞行高度10米,重叠率50%,共获取661张分辨率为8192×5460像素的原始图像。
通过Pillow图像处理库将原始图像裁剪为640×640像素,并使用Labelme软件对玉米幼苗进行标注。数据集按7:2:1比例划分为训练集、验证集和测试集。为提升模型泛化能力,对训练和验证集进行图像增强,包括对比度、亮度、颜色调整,以及运动模糊和高斯噪声添加。最终获得3360张训练图像、960张验证图像和480张测试图像。
RT-DETR模型基于Transformer架构,主要由骨干网络、高效混合编码器和带辅助预测头的Transformer解码器组成。本研究提出的CBAM-RTDETR模型在其特征提取骨干网络PResNet50中引入CBAM模块和分组卷积。CBAM模块通过通道和空间维度的注意力机制动态调整特征层权重,增强关键特征并抑制噪声;分组卷积则通过分组计算范式减少参数量,提升特征多样性。
具体而言,输入图像尺寸为H×W×3,经过三个卷积层和最大池化层后,输入四个阶段的BottleNeck模块。每个BottleNeck包含主路径、快捷路径和注意力机制三部分。主路径中,第二层卷积替换为分组卷积,参数量减少至原来的1/g(g为分组数),在降低计算量的同时增强特征表达能力。特征层经批归一化后输入CBAM模块,其输出与快捷路径相加后经ReLU激活函数输出至下一阶段。
训练环境为Ubuntu 20.04.6 LTS系统,配备NVIDIA GeForce RTX 4090 GPU(24G显存)、20核CPU和80G内存,深度学习框架为PyTorch 2.0。模型输入尺寸为640×640×3,训练130个epoch,批量大小为8,使用AdamW优化器,初始学习率0.001,最小学习率0.00001。
模型性能评估:
对比方法包括YOLOv5、YOLOv7、YOLOv8和RT-DETR。所有模型使用相同数据集训练,置信度阈值设为0.5。评估指标包括精确率(Precision)、平均召回率(AR)、平均精度均值(mAP)和帧率(FPS)。其中,mAP0.5、mAP0.75和mAP0.50-0.95分别表示IoU阈值为0.5、0.75和0.5-0.95(步长0.05)时的平均精度。
结果与分析:
训练过程中,所有模型在验证集上的评估指标均趋于稳定,表明模型收敛。CBAM-RTDETR在AR、mAP0.5、mAP0.75和mAP0.50-0.95上表现最佳,尤其在AR和mAP0.75上显著优于其他模型。尽管前20个epoch中其AR和mAP0.5略低于RT-DETR,但随着训练进行,性能迅速提升。
在测试集上,CBAM-RTDETR的mAP0.50-0.95、mAP0.5、mAP0.75和AR分别达到48.2%、92.9%、43.6%和64.4%,较RT-DETR提升3.1%、1.6%、6.3%和4.9%。YOLOv7性能最差,各项指标均显著较低。实时性方面,CBAM-RTDETR与RT-DETR均达到87 FPS,优于其他模型。
在计数测试中,CBAM-RTDETR从20张遥感图像中识别出4827株玉米幼苗,其中正确识别4814株,精确率和召回率分别为99.73%和96.18%,均优于对比模型。
消融实验进一步验证了CBAM和分组卷积模块的贡献。单独添加CBAM模块使mAP0.50-0.95、mAP0.5、mAP0.75和AR分别提升1.2%、1.2%、3.8%和1.2%,FPS降低3帧/秒;单独使用分组卷积使mAP0.75提升1.7%,FPS增至89帧/秒。两者结合后,模型在精度和速度上达到最优平衡。
特征热图对比显示,CBAM-RTDETR在Stage_3输出中边界热分布更为明显,表明其增强浅层细节和抑制冗余背景的有效性。
讨论:
本研究针对田间环境下玉米幼苗检测难题,提出基于无人机遥感和CBAM-RTDETR算法的解决方案。通过引入CBAM注意力机制和分组卷积,在保持实时性的同时显著提升检测精度。CBAM模块通过通道和空间权重调制强化幼苗边缘特征,分组卷积则通过参数高效的计算范式增强特征多样性。
与近年研究相比,CBAM-RTDETR在准确性和速度上均表现优异。例如,传统机器学习方法虽能达到较高精度,但依赖多模型组合,操作成本高;基于YOLO的改进模型在实时性上存在局限;而其他RT-DETR优化方案往往以牺牲速度为代价提升精度。
本研究的局限性在于样本环境噪声覆盖不足(如杂草、雾天等),且飞行高度仅限10米,未对比其他高度场景。此外,模型实时性虽未下降,但仍有优化空间。未来工作将在多样化环境中测试模型鲁棒性,并关注最新目标检测模型的进展,进一步优化性能。
结论:
CBAM-RTDETR模型通过集成CBAM注意力机制和分组卷积,有效提升了玉米幼苗在复杂农田环境中的检测精度与实时性能。其在mAP0.5(92.9%)、AR(64.4%)和FPS(87帧/秒)等指标上均优于现有方法,为智慧农业中的作物监测提供了高效可靠的技术支持。未来研究将拓展模型在多种环境条件下的适用性,并进一步优化计算效率与泛化能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号