《Knowledge-Based Systems》:MTF-Net: A Mediator Transformer-based Fusion Network with MOE for 6D Object Pose Estimation
编辑推荐:
提出基于双向中介Transformer的多模态融合网络MTF-Net,通过线性中介注意力机制优化RGB与深度图像特征融合,结合自适应混合专家模块动态调整模态权重,采用3D关键点检测与实例分割实现6D物体姿态估计,在多个基准测试中显著优于现有方法。
姜志强|安涛|童子萌|李正宇|杜若然|谢涛|王科|赵立军|李瑞峰
哈尔滨工业大学机器人科学与系统国家重点实验室,哈尔滨,150006,中国
摘要
6D物体姿态估计仍然是计算机视觉和机器人技术中一个关键的研究领域。近年来,许多基于深度学习的方法证明了结合RGB图像和深度图像进行物体姿态估计的可行性。然而,主要问题在于如何优化两种模态特征的整合,以及如何处理各种复杂场景中输入主导模态数据的动态变化。在这项工作中,我们提出了MTF-Net,这是一个基于中介变换器的融合网络,采用自适应专家混合机制来实现精确的6D物体姿态估计。针对第一个问题,我们提出了一个双向中介变换器(BMT)融合模块,该模块利用线性中介注意力机制(LMA)来识别多模态特征之间的语义相似性,从而使网络能够在保持注意力权重的表达能力和准确性的同时,降低计算复杂度。这实现了更有效和强大的特征融合。针对第二个问题,我们引入了一个自适应专家混合(A-MOE)层,该层可以根据输入数据识别外观特征和几何特征之间的主导模态数据,并调整网络参数以重新分配权重,从而减轻低质量数据对姿态估计结果的影响。最后,我们使用3D关键点检测网络和实例分割模块来回归物体姿态。综合实验表明,MTF-Net在多个基准测试中显著优于现有的最先进技术。
部分摘录
引言
6D物体姿态估计是许多计算机视觉应用中的关键组成部分,包括增强现实[1]、[2]、[3]、自动驾驶[4]、[5]、[6]以及机器人抓取[7]、[8]、[9]。
传统的6D姿态估计方法[10]、[11]依赖于经验知识或手工制作的特征(例如几何形状、边缘和角点)来进行特征匹配和物体姿态估计。尽管该领域取得了显著进展,但这些技术在面对
单模态姿态估计
基于RGB的姿态估计。利用RGB数据进行姿态估计是一个重要的研究方向。这一研究领域可以分为几个不同的焦点:整体方法[15]、[22]、[23]、[24]、基于2D关键点的方法[14]、[25]、[26]、[27],以及密集对应关系探索[28]、[29]、[30]、[31]。整体方法旨在直接使用神经网络计算物体的3D平移和3D旋转参数,例如PoseNet和PoseCNN[32]、[12]等实现。
概述
利用RGBD数据进行6D物体姿态估计需要确定一个变换矩阵,该矩阵将物体坐标系映射到相机坐标系:该变换矩阵包括一个平移向量和一个旋转矩阵。在这项工作中,我们提出了MTF-Net,这是一个基于中介变换器的融合网络,能够有效地提取和整合两种模态的特征,以回归准确的变换
实施细节
MTF-Net架构。 MTF-Net框架被精心设计为一个双分支系统,同时处理外观特征和几何数据。对于外观特征,它采用了预训练的ResNet34[74]作为编码器,并结合了PSPNet[79]解码器来解释特征。相反,几何特征分支使用RandLA-Net[75]从输入中提取空间特征。
局限性与未来工作
对未见场景和物体的泛化能力。尽管A-MOE减轻了模态主导性,BMT改善了跨模态融合,但我们的模型是在标准的实例级RGBD基准测试(YCB-Video、LineMOD和Occlusion LineMOD)上训练和评估的,并不能可靠地泛化到未见的环境中。在分布外的情况下——例如新的场景、传感器、光照、背景或以前未见过的物体实例/类别——我们观察到性能明显下降。在未来的工作中,
结论
在这项工作中,我们提出了MTF-Net,这是一个基于中介变换器的融合网络,采用MOE进行6D物体姿态估计。MTF-Net的关键在于采用了基于双向中介变换器的融合模块和线性中介注意力机制。这种双向融合模块应用于特征提取过程的每个特征维度,从而完美地整合了两种不同模态之间的全局语义特征。我们进一步提出了
CRediT作者贡献声明
姜志强:撰写——原始草稿、可视化、验证、软件、方法论、形式分析、概念化。安涛:撰写——原始草稿、可视化、软件、方法论、形式分析。童子萌:撰写——审稿与编辑、验证、形式分析。李正宇:调查、验证、撰写——审稿与编辑。杜若然:可视化、验证、软件、调查。谢涛:撰写——审稿与编辑、监督、项目管理、资金支持
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了国家重点研发计划(2019YFB1310004)和安徽省机器视觉检测重点实验室开放研究基金(Grant KLMVI-2024-HIT-18)的支持。