文本引导的跨模态场景感知:遥感定位新方法及其在自主协同系统中的应用

【字体: 时间:2025年10月21日 来源:Information Fusion 15.5

编辑推荐:

  本文提出了一种新颖的文本引导两阶段协同(TSPLoc)模型,用于实现从粗到精的遥感定位。该模型通过实例查询提取器(Instance Query Extractor)、文本引导自适应学习(TAL)模块和场景感知TransMamba(S-TM)模块增强3D场景理解,并利用模态预对齐策略和多模态级联交叉注意力(MCCA)模块缩小文本与点云(Point Cloud)的模态差异。实验表明,在KITTI360Pose数据集上,该模型Top-1准确率在5米半径阈值下比现有最佳方法提升8%,为推进自主协同系统(Autonomous Collaborative Systems)提供了新方案。

  
亮点
  • 我们提出了一种新颖的文本引导两阶段协同优化(TSPLoc)模型,用于从粗到精的遥感定位,该模型采用实例查询来表示单元中的潜在实例,从而引导相对定位向物体位置的邻域偏移,以提高定位精度。
  • 我们在粗定位阶段设计了文本引导自适应学习(TAL)模块以整合上下文信息促进鲁棒推理,以及场景感知TransMamba(S-TM)模块以增强3D场景理解;在精定位阶段引入了多模态级联交叉注意力(MCCA)模块,以充分利用空间关系信息进行多模态融合。
  • 我们在KITT360-Pose数据集上进行了大量实验,证明了我们的模型在文本引导融合多模态特征方面的有效性,其性能达到了与最先进模型相当的水平。
未编号的图表
表1,表2。
作者贡献声明
Mo Yang: 撰写-审阅和编辑,撰写-初稿,可视化,方法论,数据整理。 Luo Chen: 监督,方法论,资金获取。 Ning Jing: 项目管理,资金获取。
利益冲突声明
作者声明,他们没有已知的竞争性财务利益或个人关系,这些利益或关系可能影响本报告的工作。
致谢
本工作得到了国家自然科学基金(41971362, U19A2058)的资助。
结论
本文提出了一种新颖的文本引导两阶段协同(TSPLoc)模型,用于从粗到精的遥感定位。在粗定位阶段,引入了实例查询提取器以生成多尺度点云特征,设计了文本引导自适应学习(TAL)模块以整合上下文信息促进鲁棒推理,并设计了场景感知TransMamba(S-TM)模块以动态切换骨干网络来增强3D场景理解。在精定位阶段,提出了一种模态预对齐策略来帮助捕获物体间的空间关系,并使点云更接近文本模态。同时,引入了多模态级联交叉注意力(MCCA)模块来融合多模态特征并预测相对定位偏移,以提高定位精度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号