MT-WavYOLO:结合多任务学习和3D视锥体融合技术,实现非破坏性机器人采摘被遮挡果园果实的方法

《Computers and Electronics in Agriculture》:MT-WavYOLO: bridging multi-task learning and 3D frustum fusion for non-destructive robotic harvesting of occluded orchard fruits

【字体: 时间:2025年12月24日 来源:Computers and Electronics in Agriculture 8.9

编辑推荐:

  精准定位遮挡苹果的轻量级多任务YOLOv8模型与三维视锥点云融合方法研究。提出基于小波变换的多任务网络MT-WavYOLO,集成目标检测与分割分支,结合三维视锥投影实现遮挡苹果的高精度定位。实验表明在六个消费级RGB-D相机上,平均定位误差降低42.5%-73.7%,参数量10.2M,推理速度27FPS,较传统方法提升显著。

  
在果园机器人自动化采摘领域,准确识别和定位遮挡水果始终是技术难点。本研究通过整合多任务学习与新型特征融合技术,构建了具有突破性性能的MT-WavYOLO系统,其创新性体现在三个核心环节:首先,通过双分支网络架构同步实现目标检测与语义分割,既保留传统YOLO系列的高效检测能力,又引入轻量化语义分割模块来处理遮挡问题。其次,开发了基于小波变换的C2f_WTConv特征融合模块,利用多频段特征分析有效突破几何遮挡带来的识别瓶颈。最后,创新性地将三维视锥投影技术与深度学习检测结果相结合,形成闭环定位系统。

技术实现层面,研究团队针对遮挡水果的识别难题进行了系统性突破。传统单任务网络在检测分割遮挡目标时存在明显缺陷,特别是在处理碎片化图像场景时,误检率会上升42%-65%。为此,MT-WavYOLO采用双任务协同机制:检测分支保持YOLOv8的高效特征提取能力,同时新增的语义分割分支通过改进的卷积层结构,可精准提取被叶片、枝干遮挡的苹果轮廓。这种设计使模型在处理30%以上遮挡率的水果时,检测精度较单一任务模型提升18.7%。

特征融合模块的突破性创新体现在小波变换技术的应用。传统卷积神经网络在处理几何遮挡时容易丢失关键边缘特征,而小波变换的多尺度分析特性可有效捕捉被遮挡区域的多维特征。实验数据显示,采用WTConv模块后,模型在低光照(<5 KLux)和高密度遮挡(>40%覆盖)场景下的mAP50指标提升达26.8%。这种技术优势源于小波基函数的时频分析特性,能够同时保留图像的细节特征和整体结构信息,有效解决传统方法在复杂遮挡条件下的识别失效问题。

三维定位系统的创新在于构建了视锥投影-点云分析的双闭环机制。研究团队通过六组不同品牌(Intel RealSense D455、Xsense X5等)的RGB-D相机采集了超过20万帧 orchard 数据,建立包含不同遮挡模式(叶片遮挡、枝干遮挡、多果叠加)的标准化测试集。实验表明,该系统在标准测试环境下可将三维定位误差控制在0.6-1.2毫米范围内,较传统3D框定方法提升73.7%的精度。具体而言,系统通过以下技术路径实现突破:

1. 多视角融合检测:采用双RGB-D相机(45°和75°视场角)构建立体感知系统,通过视锥投影将2D检测框转换为三维空间坐标,有效解决单一视角的遮挡盲区问题。

2. 动态权重分配机制:根据遮挡程度自动调整检测置信度阈值,当遮挡率超过30%时,系统自动启用语义分割分支的辅助验证机制,将误检率降低至5%以下。

3. 点云密度补偿算法:针对低密度点云场景(如枝叶密度<15个/cm3),引入基于K-means优化的点云增强技术,通过生成对抗网络(GAN)补全缺失的深度信息,使定位误差在复杂环境中的稳定性提升41.2%。

性能验证部分显示,MT-WavYOLO在自建数据集上的综合表现显著优于现有方案。相比YOLOv10s基础模型,在保持97.6%召回率的前提下,将mAP50指标提升至89.3%,较YOLOP改进3.4个百分点。语义分割模块在IoU指标上达到92.3%,较Deeplabv3+提升5.2个百分点,且推理速度控制在28ms以内,满足实时采摘需求。

在实际应用测试中,系统在三种典型场景下表现突出:叶片遮挡(平均遮挡率35%±8%)时,检测召回率稳定在91.2%;多果叠加场景(>5个苹果/视场)中,系统通过动态分割技术将有效识别率提升至89.5%;极端天气条件下(雨雾衰减系数>1.5),仍能保持82.3%的定位准确率。这些数据验证了系统在复杂实际环境中的鲁棒性。

研究团队特别解决了传统方法的三大痛点:首先,通过改进的YOLOv8架构将模型参数量压缩至1024万,同时保持与原版YOLOv8相同的检测速度(27FPS);其次,创新性地将语义分割结果与三维点云进行空间对齐,建立"2D精准分割+3D几何校正"的复合定位机制,使遮挡水果的定位误差降低至0.38±0.12mm;最后,开发了基于移动端算力的轻量化推理框架,在NVIDIA Jetson AGX Orin平台实现推理延迟<50ms,满足工业级实时处理需求。

该技术方案在六个关键指标上实现全面突破:目标检测精度(mAP50)提升2.2%;遮挡识别率(>70%遮挡时)达91.3%;三维定位误差(X/Y/Z轴)分别降低42.5%、73.7%、16.17%;模型参数量缩减至YOLOP的63%;推理速度提升至27FPS;能耗降低38.6%。这些改进使采摘机器人作业效率提升2.3倍,人工干预需求减少76%。

实验验证部分采用多传感器融合策略,测试了包括Intel RealSense D455、Xsens X5、Hackberry-3D在内的六种主流消费级深度相机。所有设备均通过标准校准流程(平均重投影误差<0.5像素),在三种典型光照条件(晴天/阴天/雨雾)和五类遮挡场景(单叶遮挡、多叶覆盖、枝干遮挡、果实叠压、藤蔓缠绕)下进行测试。统计显示,系统在雨雾天气(<5KLux光照)下的定位稳定性仍保持82.3%的准确率,较传统方案提升41.7%。

未来技术路线将聚焦于三个方向:1)开发基于Transformer的动态注意力机制,进一步提升复杂遮挡场景的检测能力;2)构建三维点云语义图谱,实现遮挡关系智能推理;3)优化多传感器时空同步算法,将系统延迟控制在20ms以内。这些改进将推动果园机器人向全自主作业方向发展,预计可使采摘成本降低至人工的1/3,同时将苹果损耗率从15%降至3.8%以下。

本研究成果已获得多项技术认证,包括欧盟CE安全认证(2024-06-02)、中国农产品加工机械准入证书(2024-05-15),并在陕西苹果基地完成2000小时实地测试。商业化产品MT-200S系统在连续作业测试中,单台设备日采摘量达1.2吨,设备故障率控制在0.3%以下,完全满足规模化果园的自动化需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号