基于关键点检测的串番茄同步识别与采摘点定位方法研究

【字体: 时间:2025年07月25日 来源:Frontiers in Plant Science 4.8

编辑推荐:

  这篇研究提出了一种改进的YOLOv8n-Pose模型(YOLOv8-TP),通过引入C2f-OREPA模块、PSA(Partial Self-Attention)机制和CGAFusion(Content Guided Attention Fusion)技术,实现了温室环境下串番茄及其采摘点的高精度同步检测。模型在保持154.7 FPS实时速度的同时,将检测精度提升至89.8%,关键点定位误差小于25像素,深度误差控制在3毫米内,显著解决了传统方法在遮挡、光照变化和复杂生长姿态下的性能瓶颈。

  

1 引言

中国作为全球最大的串番茄生产国,2023年产量达800万吨,但传统人工采摘面临效率低、劳动力短缺等问题。研究团队针对温室环境中光照多变、果梗与背景颜色相似等挑战,提出基于关键点检测的同步识别方法。相比现有实例分割(如双流算法)和3D姿态检测方法,该方案通过端到端架构显著降低计算量(Flops减少8.1%),同时克服了传统图像处理(TIPM)在复杂场景中的适应性缺陷。

2 材料与方法

2.1 数据采集
在山西太谷番茄小镇采集2778×1284像素图像,覆盖晴天、阴天及10°-135°多角度拍摄,构建包含3665个标注样本的Tomato-P数据集。标注采用JSON格式,区分成熟(R)、半成熟(GR)等4类状态,并标记采摘点坐标(xP, yP)及可见性(visible-P)。

2.3 模型架构
YOLOv8-TP核心改进包括:

  • C2f-OREPA模块:替换原BN层为线性缩放层,训练阶段保留多路径优化,推理时压缩为单分支,提升小目标检测鲁棒性;
  • PSA机制:将特征图分割后分别进行多头自注意力(MHSA)和卷积处理,平衡全局建模与计算效率;
  • CGAFusion:在Neck网络融合空间/通道/像素注意力,通过SIMs(Spatial Importance Maps)动态增强关键特征。

3 结果与分析

3.1 性能对比
YOLOv8-TP在测试集上实现mAP@0.5达93.8%,较基线模型提升1%。遮挡场景下置信度提高15%,F1-score达0.89。PR曲线显示其对R-S(遮挡成熟果)类别的检测精度达88.3%,显著优于传统方法。

3.3 消融实验
单独引入PSA使mAP@0.5:0.95提升2.1%,而C2f-OREPA+CGA联合优化后,模型GF lops降至7.6G,推理速度达154.7 FPS(YOLOv8n-pose为148.6 FPS)。

3.4 定位精度
采摘点像素欧氏距离误差28.253(标准差16.686),实际物理偏差0.0265米,满足机器人末端执行器容差需求。深度相机D435i测得三维坐标误差<3毫米(相对误差0.073%-0.419%)。

4 结论与展望

该模型为农业机器人提供了高效的视觉解决方案,未来可通过融合LiDAR等多模态数据进一步优化极端光照下的性能。研究团队计划开源Tomato-P数据集,推动智慧农业技术发展。当前局限包括:

  • 强眩光环境下检测稳定性不足;
  • 枝叶极度缠绕时采摘点定位偏差增大。
    后续将借鉴自由曲面几何定位(Deng et al., 2025)和雷达融合(Liu et al., 2024)技术,增强复杂农艺场景的适应性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号