面向嵌入式设备的轻量级草莓关键点检测模型及采摘点定位方法

《Artificial Intelligence in Agriculture》:A lightweight keypoint detection model-based method for strawberry recognition and picking point localization in multi-occlusion scenes

【字体: 时间:2025年10月25日 来源:Artificial Intelligence in Agriculture 12.4

编辑推荐:

  本研究针对高架栽培草莓在多重遮挡场景下的识别与采摘点定位难题,结合嵌入式设备资源受限的特点,提出了一种基于轻量级关键点检测模型LS-net的解决方案。通过集成MobileNetV4主干网络与Mobile Grouped-Query Attention机制增强空间关系建模能力,采用深度可分离卷积优化特征金字塔网络,并结合Anchor-Free解耦头结构降低计算复杂度。实验结果表明,LS-net在准确率(91.07%)、平均精度(93.93%)和关键点定位误差(4.79像素)方面表现优异,在嵌入式设备上达到78.2 FPS的实时性能,为草莓采摘机器人提供了高效可靠的视觉识别方案。

  
在高架栽培模式下的草莓园中,成熟的草莓果实常常面临严重的遮挡问题——叶片、枝干或其他果实的遮挡使得传统的视觉识别系统难以准确识别和定位。这不仅影响了草莓采摘机器人的工作效率,更可能导致漏检、误检甚至损伤果实。与此同时,采摘机器人携带的嵌入式设备存在计算能力有限、内存不足等困境,难以处理复杂的视觉数据。这些双重挑战严重制约了草莓自动化采摘任务的高效实施。
为了突破这一技术瓶颈,南京农业大学工学院的研究团队在《Artificial Intelligence in Agriculture》上发表了一项创新研究,提出了一种基于轻量级关键点检测模型的草莓识别与采摘点定位方法。该研究通过构建包含无遮挡、轻微遮挡、中度遮挡和严重遮挡四类场景的草莓数据集,开发了名为LS-net的轻量级草莓识别与关键点检测网络。
在技术方法上,研究人员主要采用了以下关键创新:首先,将轻量级MobileNetv4主干网络与Mobile Grouped-Query Attention(MGQA)机制相结合,增强了草莓与茎秆空间关系特征的建模能力;其次,使用深度可分离卷积(DSConv)优化特征金字塔网络(FPN),显著降低了计算复杂度;此外,采用Anchor-Free解耦头网络减少冗余背景计算,并引入矩阵非极大值抑制(MNMS)优化重叠目标处理。基于关键点检测结果,研究人员还开发了基于感兴趣区域(ROI)提取、二值化和深度数据对齐的采摘点坐标与茎秆姿态计算方法。
模型架构设计与优化
LS-net网络架构包含多个协同工作的核心模块。MobileNetV4主干网络通过通用逆瓶颈(UIB)模块实现高效特征提取,其中ExtraDW模块通过双深度卷积策略平衡计算效率与感受野扩展。MGQA机制采用分组查询策略,将查询头分为4组共享键值矩阵,结合空间缩减注意力(SRA)将键值空间尺度降低至原来的1/R2,在保持查询高分辨率特征的同时显著降低计算量。特征金字塔网络使用深度可分离卷积替代标准卷积,将参数量和计算量降低约9倍。Anchor-Free解耦头网络通过双张量结构将输出空间从H×W×S2压缩至H×W×2S,有效减少冗余背景计算。
损失函数与后处理创新
研究团队针对不同遮挡等级的草莓设计了差异化损失函数策略:对无遮挡和轻微遮挡样本使用二元交叉熵损失(BCE),对中度和严重遮挡样本采用更具鲁棒性的Huber损失。边界框回归使用完整交并比(CIoU)损失,包含中心点距离惩罚项和宽高比惩罚项。关键点损失采用动态加权指数(DWE)损失函数,对茎秆根部等关键点赋予较高权重。在后处理阶段,矩阵非极大值抑制(MNMS)通过高斯惩罚函数衰减置信度而非直接剔除,有效解决了传统贪心NMS(GNMS)对重叠目标的过度抑制问题。
多层级性能验证
实验结果表明,LS-net在测试集上达到91.07%的准确率和93.93%的mAP,关键点平均像素欧氏距离(APED)为4.79。与主流关键点检测模型相比,LS-net在保持竞争力的检测精度同时,参数量仅4.97M,在服务器环境下推理速度达到51.3 FPS。消融实验证实,MGQA机制的引入使准确率提升1.26%,APED降低1.86;DSConv优化使参数量减少2.16M,FPS提升31.2。遮挡等级分类标注策略结合差异化损失函数,使模型在严重遮挡场景下的准确率提升2.67%。
实际应用效能评估
在嵌入式设备Jetson Orin NX上的部署测试显示,LS-net可实现78.2 FPS的实时推理速度,显存占用稳定在0.8GB。田间实验中,对182个草莓样本的测试表明,二维采摘点定位APED为5.53,茎秆姿态估计平均绝对误差(θMAE)为3.26°,三维采摘点定位成功率达84.07%,茎秆姿态估计成功率达81.32%。不同遮挡等级下的性能分析显示,从无遮挡到严重遮挡场景,二维采摘点定位APED从4.73增加至8.58,姿态估计误差从3.06°增加至5.23°,体现了方法在复杂场景下的适应性。
该研究通过轻量级网络架构设计、注意力机制优化和多尺度特征融合等技术创新,实现了精度与效率的平衡。LS-net模型在保持高精度的同时显著降低计算复杂度,其关键点检测精度为草莓采摘机器人提供了可靠的视觉感知能力。提出的采摘点定位和茎秆姿态估计方法能够适应不同遮挡条件,为农业自动化采摘任务提供了实用的技术解决方案。这项研究不仅推动了轻量级计算机视觉模型在农业领域的应用发展,也为其他果蔬采摘机器人的视觉系统设计提供了重要参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号