基于Transformer增强的复杂果园环境幼果实时检测方法HLEdetection及其应用

《Smart Agricultural Technology》：A Transformer-Enhanced Real-Time Detection Method for Young Fruits in Complex Orchard Environments

【字体：大中小】 时间：2026年01月04日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　针对复杂果园环境下幼果检测存在的小目标、颜色相似、密集遮挡等挑战，本研究提出了一种多层级、端到端的Transformer增强实时检测方法HLEdetection。该方法通过分层多尺度特征提取模块(HMFE)增强小目标感知能力，采用可学习位置编码注入(LLCI)提升跨尺度特征对齐，并设计EMASlideLoss函数缓解类别不平衡问题。实验结果表明，该方法在四类典型场景下平均精确度达91.7%，召回率79.7%，推理速度达27.8 FPS，相比主流检测器在F1分数和mAP50-95上提升超过20%，为果园智能化管理提供了可靠技术支撑。

在苹果种植业中，幼果期的精准检测对于实现自动化果园管理至关重要。然而，由于幼果体积小、颜色与背景相似、经常存在重叠和遮挡等问题，在复杂的果园环境中实现实时检测成为重大挑战。目前的人工疏果虽然精度高但劳动强度大、效率低，化学疏果虽然成本较低但对药剂配比和天气条件敏感，且存在环境污染风险。在此背景下，实现幼果期的自动识别与检测对于推广精准疏果、产量估算和智能果园管理具有重要意义。

传统检测方法主要依赖颜色、形状和纹理等低层视觉特征，结合分割、边缘检测和阈值处理等经典流程，但这些方法高度依赖手工特征和固定阈值，难以适应光照复杂、叶片遮挡和背景干扰多的果园环境。随着深度学习技术的发展，基于卷积神经网络(CNN)的端到端学习方法逐渐取代手工特征，在复杂场景下的多尺度表示和鲁棒性方面取得显著进展。典型模型如Faster R-CNN和YOLO系列，前者精度较高但推理速度较慢，后者能实现实时检测但在小目标检测和处理复杂场景时存在精度下降问题。尽管研究者提出了多尺度融合、注意力机制和轻量化设计等改进措施，但CNN的局部感受野限制和固定卷积核结构，使其在建模长程依赖和细粒度特征方面仍存在固有局限，特别是在检测小而密集的目标时。

为克服这些限制，石河子大学机电工程学院的研究团队在《Smart Agricultural Technology》上发表了一项创新研究，提出了一种名为HLEdetection的多层级、端到端、Transformer增强的实时幼果检测方法。该研究构建了包含四种代表性果园场景的自定义数据集，通过系统实验验证了该方法在精度和效率方面的优越性。

本研究采用的关键技术方法主要包括：首先构建了涵盖不同光照、视角和遮挡条件的幼果图像数据集，采用数据增强策略提升模型泛化能力；其次设计了包含分层多尺度特征提取(HMFE)模块、可学习位置编码注入(LLCI)模块和EMASlideLoss损失函数的整体架构；最后在包含稀疏分布、密集堆叠、复杂光照和严重遮挡四种典型场景的数据集上进行了全面评估。

3.3.1. HLEdetection网络

研究团队提出的HLEdetection框架包含三个核心模块：分层多尺度特征提取(HMFE)模块通过多分辨率提取果实特征增强小目标感知能力；可学习位置编码注入(LLCI)模块在解码阶段引入可学习位置嵌入以加强跨尺度特征对齐；EMASlideLoss函数结合指数移动平均策略和基于交并比(IoU)的加权机制缓解严重类别不平衡问题。整体架构在保持端到端优势的同时，显著提升了在复杂果园环境下的检测性能。

3.3.2. 分层多尺度特征提取模块

HMFE模块采用滑动窗口和分层机制，在多个分辨率上并行提取细粒度和全局语义特征。该模块首先进行块嵌入，将输入图像划分为2×2块，步长为2，生成[H/4, W/4, C]维度的特征图，增强模型捕捉低层语义结构和几何细节的能力。每个块内交替堆叠基于窗口的多头自注意力(W-MSA)和移位窗口的多头自注意力(SW-MSA)模块，促进区域间交互。计算复杂度分析表明，W-MSA相比传统MSA能显著降低计算量，同时保持语义建模能力。

3.3.3. 学习位置编码注入模块

LLCI模块专门针对低层特征包含丰富边缘和纹理细节但语义表示不足，而高层特征提供强语义和定位能力但易丢失细粒度细节的问题进行优化。该模块仅在高层特征图S₅上执行基于注意力的尺度内特征交互，避免弱语义低层特征与高层特征融合时可能产生的混淆和冗余。位置偏置矩阵基于序列长度N与预定义最大位置索引M的关系生成，使注意力机制能够同时融入幼果特征信息和空间位置先验。

3.3.4. 损失函数

EMASlideLoss损失函数引入了基于IoU的分段加权机制，动态调整正负样本权重。该函数采用二元交叉熵(BCE)衡量预测概率与真实标签间的差异，并引入IoU加权因子，应用指数移动平均(EMA)策略动态更新分类权重。通过保留二元交叉熵的表达能力，EMASlideLoss动态关注低IoU、遮挡和边界模糊的预测，从而提高模型对小而难检测幼果的敏感性。

4.3. 轻量级骨干网络性能比较

实验结果表明，HMFE模块在所有四种典型场景下均表现出色。在稀疏分布的场景A中，mAP_50-95达到0.621；在密集堆叠的场景B中为0.470；在复杂光照的场景C中为0.506；在严重遮挡的场景D中为0.576，显著优于ResNet-18/50、HGNet-v2、MobileNetV4和EfficientViT等主流骨干网络。特别是在密集遮挡环境下，HMFE保持了强大的性能，实现了0.880的精确度、0.760的召回率和0.470的mAP_50-95。

4.4. 消融实验

消融实验验证了各关键模块的有效性。单独使用HMFE模块时，mAP_0.5和mAP_0.5:0.95分别提升至0.652和0.436；加入LLCI模块后，精确度和召回率进一步提高至86.7%和70.2%，mAP_0.5和mAP_0.5:0.95达到0.674和0.459；集成EMASlideLoss后，精确度、召回率和F1分数分别提升至88.0%、76.0%和0.816，mAP_0.5和mAP_0.5:0.95达到0.691和0.470，且推理速度保持在27.8 FPS。

4.5. 与主流模型性能比较

与YOLO系列、Faster R-CNN、RT-DETR等主流检测器相比，HLEdetection在四个场景中均表现最佳。在场景A中，精确度、召回率和mAP_50:95分别达到0.942、0.822和0.621；场景B中为0.880、0.760和0.470；场景C中为0.915、0.795和0.506；场景D中为0.932、0.812和0.576。特别是在密集遮挡场景下，HLEdetection相比最佳基线模型提升超过38%。

4.6. EMASlideLoss损失函数的性能提升

EMASlideLoss显著增强了模型在复杂光照和遮挡条件下的检测性能。相比SlideLoss、FocalLoss和VarifocalLoss，该损失函数能更好地处理低IoU样本，减少误检和漏检。在 uneven lighting 和 occlusion 条件下，使用EMASlideLoss的模型对所有目标(苹果)的置信度普遍较高(0.85-0.89)，定位准确，边界框边界清晰。

4.7. 评估与性能基准

性能评估显示，HLEdetection在精确度和mAP@0.5方面表现优异，精确度达到约0.90。在推理时间方面，与YOLOv8s相当的延迟约为36毫秒，在精度、速度和可扩展性之间实现了良好平衡。

4.8. 公共数据集(AppleBBCH81)上的评估

在公开数据集AppleBBCH81上的评估进一步验证了模型的泛化能力。HLEdetection的精确度、召回率和mAP@0.5:0.95分别达到0.956、0.927和0.667，优于所有基线模型。在高密度和重叠果实区域，该模型生成的边界框与真实标注高度吻合。

4.9. 失败分析

失败分析揭示了四种典型失败模式：逆光或低对比度条件下局部对比度急剧下降导致漏检；多个小果实密集聚集时边界框错位；遮挡情况下部分可见果实被漏检或背景结构被误判；极端背光条件下类似灰度颜色导致误报。分析表明需要在全局上下文聚合和背景抑制方面进一步改进。

研究结论表明，HLEdetection框架在复杂果园环境的幼果检测任务中实现了高精度、低延迟和良好可扩展性。在保持27.8 FPS实时推理速度的同时，mAP_50-95相比主流检测器提升超过10%，为自动化疏果、采摘和精准管理等果园智能应用奠定了坚实基础。未来工作将集成更多部署友好和小目标友好的机制，继续推进更高效、更轻量、更鲁棒检测器的构建。

该研究的创新性在于将Transformer的全局建模能力与实时检测需求相结合，通过精心设计的模块解决了小目标检测中的关键难题，为农业视觉检测领域提供了新的技术思路和实践方案。