基于关键点检测的串番茄同步识别与采摘点定位方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月25日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　这篇研究提出了一种改进的YOLOv8n-Pose模型（YOLOv8-TP），通过引入C2f-OREPA模块、PSA（Partial Self-Attention）机制和CGAFusion（Content Guided Attention Fusion）技术，实现了温室环境下串番茄及其采摘点的高精度同步检测。模型在保持154.7 FPS实时速度的同时，将检测精度提升至89.8%，关键点定位误差小于25像素，深度误差控制在3毫米内，显著解决了传统方法在遮挡、光照变化和复杂生长姿态下的性能瓶颈。

1 引言

中国作为全球最大的串番茄生产国，2023年产量达800万吨，但传统人工采摘面临效率低、劳动力短缺等问题。研究团队针对温室环境中光照多变、果梗与背景颜色相似等挑战，提出基于关键点检测的同步识别方法。相比现有实例分割（如双流算法）和3D姿态检测方法，该方案通过端到端架构显著降低计算量（Flops减少8.1%），同时克服了传统图像处理（TIPM）在复杂场景中的适应性缺陷。

2 材料与方法

2.1 数据采集
在山西太谷番茄小镇采集2778×1284像素图像，覆盖晴天、阴天及10°-135°多角度拍摄，构建包含3665个标注样本的Tomato-P数据集。标注采用JSON格式，区分成熟（R）、半成熟（GR）等4类状态，并标记采摘点坐标（x_P, y_P）及可见性（visible-P）。

2.3 模型架构
YOLOv8-TP核心改进包括：

C2f-OREPA模块：替换原BN层为线性缩放层，训练阶段保留多路径优化，推理时压缩为单分支，提升小目标检测鲁棒性；
PSA机制：将特征图分割后分别进行多头自注意力（MHSA）和卷积处理，平衡全局建模与计算效率；
CGAFusion：在Neck网络融合空间/通道/像素注意力，通过SIMs（Spatial Importance Maps）动态增强关键特征。

3 结果与分析

3.1 性能对比
YOLOv8-TP在测试集上实现mAP@0.5达93.8%，较基线模型提升1%。遮挡场景下置信度提高15%，F1-score达0.89。PR曲线显示其对R-S（遮挡成熟果）类别的检测精度达88.3%，显著优于传统方法。

3.3 消融实验
单独引入PSA使mAP@0.5:0.95提升2.1%，而C2f-OREPA+CGA联合优化后，模型GF lops降至7.6G，推理速度达154.7 FPS（YOLOv8n-pose为148.6 FPS）。

3.4 定位精度
采摘点像素欧氏距离误差28.253（标准差16.686），实际物理偏差0.0265米，满足机器人末端执行器容差需求。深度相机D435i测得三维坐标误差<3毫米（相对误差0.073%-0.419%）。

4 结论与展望

该模型为农业机器人提供了高效的视觉解决方案，未来可通过融合LiDAR等多模态数据进一步优化极端光照下的性能。研究团队计划开源Tomato-P数据集，推动智慧农业技术发展。当前局限包括：

强眩光环境下检测稳定性不足；
枝叶极度缠绕时采摘点定位偏差增大。
后续将借鉴自由曲面几何定位（Deng et al., 2025）和雷达融合（Liu et al., 2024）技术，增强复杂农艺场景的适应性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号