基于YOLOv11-OBB的机器人抓取精度提升研究:面向动态环境的高效抓取检测新方法

【字体: 时间:2025年06月15日 来源:Heliyon 3.4

编辑推荐:

  本研究针对机器人抓取检测中精度与实时性难以兼顾的难题,创新性地将YOLOv11-OBB模型应用于抓取姿态检测。研究人员通过改进标注参数将定向边界框(OBB)转化为抓取配置参数,结合Cornell和自定义多物体数据集训练,采用形状变形、旋转裁剪等数据增强技术,最终实现98.5%的抓取准确率和29ms的实时检测速度,为动态环境下的机器人操作提供了高效解决方案。

  

在工业自动化和服务机器人领域,精准的物体抓取能力是实现自主操作的关键。然而传统抓取检测方法面临三大困境:基于几何特征的方法依赖环境条件且泛化性差;机器学习方法需要人工设计特征耗时耗力;现有深度学习模型虽精度较高但计算复杂难以实时运行。特别是在多物体杂乱场景中,如何平衡检测精度与处理速度成为制约机器人实用化的瓶颈问题。

针对这一挑战,胡志明市工业大学工业维护培训中心的Vo Duy Cong和Le Hoai Phuong团队在《Heliyon》发表研究,创新性地将目标检测领域先进的YOLOv11-OBB模型改造用于抓取检测任务。该研究突破性地利用定向边界框(OBB)参数直接表征抓取姿态,通过重新定义五维抓取参数g=(x,y,θ,w,q),将目标检测框转化为包含位置、角度、开合宽度和抓取质量评分的综合抓取配置。

研究采用了两项关键技术方法:首先构建了包含Cornell单物体数据集(885张图像)和自建多物体数据集(20类物体78张图像)的混合训练集,通过数据增强将样本量扩展10倍;其次开发了基于置信度(Confidence=P(Object)×IoUpred,truth
)的多指标评估体系,综合考量抓取点定位误差(<20°)、空间重叠度和质量评分(阈值0.3)三个维度。

【模型架构与训练】
研究将传统YOLOv11-OBB的输出层改造为抓取专用检测头,其中边界框中心(x,y)对应抓取点坐标,角度θ表示夹爪方向,宽度w反映开合距离。如图2所示,区别于常规目标检测的物体包围框,改造后的检测框专门表征最优抓取区域。训练过程显示,模型在100epoch后达到mAP50
=99.4%和mAP50-95
=91.3%的优异指标,验证损失box_loss稳定在0.44-0.49区间。

【单物体抓取性能】
如图6所示,在Cornell测试集上模型展现出近乎完美的单物体抓取检测能力,蓝色检测框精确覆盖物体可抓取区域,质量评分普遍高于0.8。值得注意的是,如图7所示,对于训练集未见的物体,模型仍能生成合理的抓取建议,尽管质量评分有所降低(0.5-0.7),这体现了良好的零样本泛化能力。

【多物体场景突破】
初始仅用Cornell数据集训练时,模型在多物体场景表现欠佳(图8)。通过引入自定义多物体数据集增强训练后,检测质量显著提升(图9),抓取评分稳定在0.7以上。特别在复杂背景和遮挡场景下(图10),模型仍能保持可靠检测,证实其对现实场景的适应能力。

【横向性能对比】
如表1所示,YOLOv11-OBB以98.5%准确率全面超越ResNet-50(89.2%)、AlexNet(88%)等传统模型,在速度(29ms)方面也优于TF-Grasp-RGB(41.3ms)等同类方案,唯一略逊于GR-ConvNet-RGB(19ms)但精度高出1.9个百分点。

该研究通过巧妙的模型改造和数据集创新,成功解决了抓取检测领域精度与速度不可兼得的核心矛盾。其技术价值主要体现在三个方面:首创将OBB检测直接转化为抓取参数的方法论,避免了复杂的后处理计算;开发的多指标评估体系为抓取质量量化设立新标准;在保持实时性的前提下,将多物体场景检测推向实用化阶段。这些突破为工业分拣、物流仓储等需要快速响应复杂场景的机器人应用提供了可靠的技术方案,同时也为视觉-运动控制系统的集成研究开辟了新思路。未来通过持续扩大训练数据集和引入半监督学习,有望进一步提升模型在极端场景下的鲁棒性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号