FS-Gen6D:一种基于少量样本的通用6自由度(6DoF)姿态估计方法,该方法结合了动态区域注意力机制和跨阶段残差模块,用于机器人抓取任务

《Neurocomputing》:FS-Gen6D: few-shot generalizable 6DoF pose estimation combining dynamic region attention with cross-stage residual module for robotic grasping

【字体: 时间:2025年11月07日 来源:Neurocomputing 6.5

编辑推荐:

  提出基于动态区域感知卷积和跨阶段残差结构的少量样本6DoF姿态估计模型FS-Gen6D,通过多分支并行结构增强稀疏关联特征检测,利用可变形3D卷积与注意力机制融合时空特征,有效解决未知物体在非结构化场景中数据不足的抓取定位问题,实验表明在GenMOP和LINEMOD数据集上优于Cas6D等基线方法。

  在现代智能机器人技术的发展中,六自由度(6DoF)姿态估计对于未知物体的抓取具有重要意义。特别是在家庭服务机器人领域,如何在未结构化的场景中,仅利用少量的RGB图像数据实现对未知物体的精准抓取,是推动其智能化发展的重要课题。当前,大多数姿态估计方法依赖于高质量的三维(3D)数据,而这些数据在实际应用中往往受到视觉设备和外部不稳定因素的影响,导致获取困难。因此,开发一种能够在少量参考图像条件下实现稳健姿态估计的方法,对于提升家庭服务机器人的实际应用能力至关重要。

本文提出了一种新的模型无关、少量样本且多阶段的姿态估计模型(FS-Gen6D),旨在解决这一问题。该模型通过引入相关定位、相似匹配和初始姿态优化三个关键模块,显著提升了在稀疏数据条件下的姿态估计性能。相关定位模块采用多头动态检测器,能够有效感知相关特征图中的稀疏特征,从而提高物体定位的准确性。相似匹配模块则通过跨阶段残差结构设计,减少稀疏旋转特征的误差,并结合可变形3D卷积,充分利用多级姿态和时空特征,实现姿态初始化。初始姿态与参考姿态特征被投影到同一空间,通过3D卷积层对初始姿态进行迭代更新,以提升整体估计精度。

在实验部分,本文在两个基准数据集上进行了广泛的测试,并评估了模型在终端设备和机器人上的泛化性能。消融实验的结果表明,所提出的模块在提取相关和相似特征时,对参考视图数据的变化具有更强的鲁棒性。与其他方法的对比实验结果显示,在16-shot视图条件下,FS-Gen6D在LINEMOD和GenMOP数据集上分别优于Cas6D 6.88和5.55个百分点。此外,应用实验验证了该方法在稀疏数据条件下的稳定性,并在UR5机器人上成功实现了未知物体的抓取。

在传统方法中,姿态估计通常依赖于手动标注的局部特征和模板匹配,这些方法在特定场景下表现良好,但在未结构化场景中,由于缺乏先验知识和依赖于特定背景,其效果受到限制。近年来,随着深度学习技术的发展,基于深度学习的方法在姿态估计任务中展现出优异的预测性能,并逐渐扩展到未知物体的泛化姿态估计研究。例如,早期研究采用无监督节点嵌入方法,结合紧凑的神经网络结构,以提升通用物体姿态估计的准确性。对于单张RGB图像下的未知物体姿态估计,研究人员通过渲染计算机辅助设计(CAD)模型,生成多个视角的图像,用于比较和估计物体姿态。然而,这些方法依赖于高质量的CAD模型,且获取高质量数据往往需要昂贵的设备。

为了解决这一问题,研究者引入了神经辐射场(NeRF)技术,通过合成虚拟相似视图,减少对CAD模型的依赖。DeepIM方法则利用渲染图像与观察图像进行视图匹配,并通过光流网络进一步估计相对姿态关系。然而,这些方法在训练过程中需要大量的时间进行迭代优化。另一方面,基于结构从运动(SfM)的模型无关方法在单张RGB图像下能够高效预测未知物体的姿态,仅需一组参考视图。例如,OnePose方法通过简单的视频扫描构建稀疏SfM模型,并利用特征匹配网络预测物体姿态。然而,这种方法依赖于局部特征匹配,难以应用于低纹理物体。基于此,OnePose++方法采用无关键点的SfM方法,构建半稠密模型,解决了低纹理物体的姿态估计问题。此外,多阶段模型被用于物体定位、初始姿态估计和姿态优化,无需依赖额外的深度图或物体掩码。

Gen6D方法通过恢复参考视图的相机姿态进行姿态初始化,并结合3D残差卷积模块更新姿态。GS-Pose方法则利用参考图像构建数据库,通过可微分3D高斯点云渲染与比较方法,高效优化未知物体的姿态。然而,Gen6D需要足够的参考视图以确保姿态初始化,而GS-Pose受限于数据库的构建,其训练依赖于大规模的合成数据。针对稀疏参考数据的Cas6D方法采用DINO-ViT和Top-K算法进行粗略姿态初始化,并结合特征金字塔进行姿态优化。然而,Cas6D模型未能有效利用高性能模块进行姿态初始化,因此在少量参考视图条件下表现有限。

本文提出的FS-Gen6D方法通过增强相关和相似特征的提取,实现了对未知物体的稳健姿态初始化。物体形状与外观特征在不同观察视角下具有一定的相关性,这对于稀疏视角数据下的泛化姿态估计至关重要。在少量样本条件下,物体的分类和相机姿态均未知,形状重建与姿态估计的协同作用有助于在现实场景中实现稳健的物体预测。为此,FS6D方法引入了自注意力和跨注意力卷积模块,以增强稀疏视角特征的提取。在将RGB图像映射到3D空间的过程中,视图信息和显著物体区域的转换被用于加强几何与语义特征之间的关系,从而提升在遮挡和杂乱场景下的6DoF姿态估计鲁棒性。

此外,多尺度特征的提取和融合在姿态估计中发挥了重要作用。例如,LocPoseNet方法引入了核分布机制,通过计算参考特征的离散分布并动态加权相关特征,提高了未知物体的位置识别精度。未知物体的基类知识既相关又多样,这种可迁移的知识可以通过图神经网络动态捕捉,从而进一步提升在少量样本条件下的物体检测性能。图神经网络在多尺度特征融合过程中,能够动态捕捉丰富的点云特征,有效解决异构特征之间的不平衡问题。同时,通过动态分配通道特征的权重,有助于提取物体表面细节和模糊特征,从而提升在复杂空间环境中的检测精度。

在多尺度相关特征中,通过卷积模块动态提取模糊稀疏区域,有助于提升在稀疏视角数据下的物体检测精度。为了增强卷积模块的特征表示能力,通过注意力机制计算自适应权重,从而实现对多个并行卷积核的非线性动态聚合。此外,动态区域感知卷积(DR-Conv)方法实现了在对应空间区域中的自适应特征提取,充分利用语义多样性,同时保持空间平移不变性。因此,本文提出了一种结合动态区域感知卷积与注意力机制的动态区域感知注意力块(DRA-block),以高效提取稀疏特征区域,最终提升在少量视角数据下的物体平移估计精度。

在参考视图方面,本文提出的方法通过动态序列的连续图像,捕捉复杂场景的空间特征和物体运动的时序特征。为了实现准确且稳健的单目姿态估计,网络模型通过相关和时空一致性进行训练,充分提取来自多个视角和物体的时空特征。姿态跟踪算法基于残差迭代框架,通过多级特征融合网络有效捕捉相邻参考帧之间的特征变化,从而提升物体姿态估计的准确性。可变形3D卷积神经网络(D3D)能够稳健处理动态场景的数据,高效提取视频序列中的稀疏时空信息。因此,D3D的残差结构能够充分利用相邻参考视图之间的稀疏时空特征。

在基于检索策略的一次样本姿态估计中,通过自适应融合模块从局部归一化图像中提取多尺度特征,并通过分析参考视图与查询图像之间的多级空间信息预测物体姿态。因此,学习在3D空间中多个层次和方向上的详细时空信息,对于单目姿态估计至关重要。跨模态注意力网络结构整合了空间和通道注意力机制,增强了图像和深度特征之间的相关性和重要性,从而提升在复杂场景中的姿态估计精度。残差空间交互网络框架在递归执行过程中,能够充分提取和保留高尺度和低尺度之间的相似特征。此外,引入通道和空间注意力机制进一步优化姿态初始化。

为了解决低纹理物体的姿态估计问题,本文采用多模态双注意力机制模块,以聚合2D外观特征和3D几何特征之间的互补信息。基于此,本文设计了一种结合D3D和注意力机制的跨阶段D3D注意力残差模块(CDA Res-module),用于充分提取稀疏3D特征空间中的相似姿态特征,从而减少参考视图的匹配误差。通过这种方式,FS-Gen6D能够在少量参考数据条件下实现稳健的姿态估计。

本文的研究成果表明,FS-Gen6D方法在家庭服务机器人领域具有显著的应用价值。该方法不仅能够在稀疏视角数据条件下实现稳健的6DoF姿态估计,还能有效提升机器人在未结构化场景中的抓取能力。通过DRA块和CDA残差模块的协同作用,FS-Gen6D方法在初始姿态估计和旋转匹配方面表现出更高的准确性和鲁棒性。此外,该方法在实际应用中展现出良好的泛化能力,能够在终端设备和UR5机器人上实现稳定的抓取任务。

在未来的研究中,本文提出了进一步的改进方向。例如,在处理紧密放置或遮挡场景中的物体时,如何优化抓取点的识别,以减少抓取过程中的相互干扰,是提升机器人抓取任务成功率的关键。为此,本文建议结合分割模型,以更精确地识别物体边界和抓取区域。此外,针对更多样化的日常物品,如何提升模型在不同纹理和形状下的适应能力,也是未来研究的重要方向。

综上所述,本文提出的FS-Gen6D方法在未知物体姿态估计方面具有重要的理论和实践意义。该方法通过多阶段结构和模块化设计,有效解决了在稀疏数据条件下的姿态估计难题,为家庭服务机器人在复杂场景中的智能化抓取提供了可靠的技术支持。通过实验验证,FS-Gen6D方法在多个基准数据集上表现出优异的性能,并在实际机器人应用中展现出良好的鲁棒性和泛化能力。未来,随着深度学习技术的不断发展,FS-Gen6D方法有望在更多应用场景中得到推广和应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号