
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多注意力特征互增强与实例重建的类别级6D物体姿态估计方法研究
【字体: 大 中 小 】 时间:2025年07月16日 来源:iLIVER CS1.5
编辑推荐:
针对类别级6D物体姿态估计中因类内差异导致的几何与纹理特征丢失问题,研究人员提出多注意力互特征增强模块(MMFEM)和实例重建变形模块(IRDM),通过多模态特征交互与实例级几何重建,在CAMERA25和REAL275数据集上分别实现79.0%和91.2%的3D75指标,显著提升大形变物体的姿态估计精度。
在机器人操作和增强现实等领域,物体姿态估计是核心技术之一。传统方法依赖已知3D模型进行实例级姿态对齐,但面对同一类别中未见过的物体时性能骤降。尽管类别级方法通过归一化物体坐标空间(NOCS)提升了泛化能力,但类内物体在几何结构和纹理上的巨大差异仍导致预测偏差。尤其对于相机等形态多变的物体,现有方法难以通过简单的点云特征拼接实现精准建模。
针对这一挑战,来自中国的研究团队提出创新性解决方案。通过设计多注意力互特征增强模块(MMFEM),首次实现图像、观测点云与类别先验形状的三方特征交互。该模块利用交叉注意力机制,使先验特征能动态引导图像与点云特征的学习,同时反向增强先验特征本身。实验表明,这种双向增强策略使模型对类内差异的识别能力显著提升。更突破性的是,团队开发的实例重建变形模块(IRDM)摒弃传统先验形状变形思路,转而重建完整实例点云作为变形基础。这种方法克服了深度图点云稀疏性带来的误差,使局部几何细节表达精度提升10%。
研究采用多模态数据融合技术,通过ResNet和PointNet++分别提取RGB图像特征Frgb和点云特征Fpts。在CAMERA25合成数据集和REAL275真实场景数据集上的测试显示,该方法在5°2cm严苛指标下达到75.9%的准确率。关键创新在于:MMFEM通过三重注意力矩阵实现特征互补,而IRDM通过实例级重建保留独特几何特征。例如对于不同型号相机,模型能准确捕捉镜头位置、按钮布局等细节差异。
研究结果部分显示:1)在特征增强方面,交叉注意力机制使先验形状Fpr与观测特征形成动态权重分配;2)实例重建模块通过坐标映射生成稠密点云,相较传统方法在茶杯把手等细部结构预测误差降低23%;3)端到端训练策略使DPDN姿态估计器能直接回归旋转矩阵和平移向量。
讨论部分强调,该方法首次实现多模态特征在注意力机制下的协同优化,为类别级姿态估计开辟新路径。局限性在于对极端遮挡场景的适应性仍需提升。这项发表于《iLIVER》的研究不仅推动机器人抓取等工业应用发展,其多模态融合思路更为三维视觉领域提供普适性框架。未来工作将探索时序信息融合与轻量化部署方案。
生物通微信公众号
知名企业招聘