具有因果推断和跨模态对齐能力的无偏见实体化视觉表示学习

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Unbiased Embodied Visual Representation Learning with Causal Inference and Cross-Modality Alignment

【字体: 时间:2025年11月08日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  目标导航中感知偏差问题影响策略泛化,本文提出基于因果推理和跨模态对齐的UEVR框架,通过Unbiased Causal R-CNN消除虚假关联偏差,利用几何约束编码三维先验到二维特征,构建模块化Causal-ObjectNav系统,实验表明其优于现有方法。

  

摘要

在新型环境中,目标导航(ObjectNav)依赖于对场景的全面理解,包括精确的视觉感知和对空间-语义规律的准确建模。然而,现有方法过度关注手工制作的场景表示,从而忽视了隐藏在视觉观测中的感知偏差的负面影响。家庭环境中手工制作的语义分布会导致虚假关联偏差,而动态视角变化则引发语义冲突偏差。有偏的视觉感知显著限制了导航策略的泛化能力。在本文中,我们提出了无偏具身视觉表示(UEVR)方法,该方法通过因果推理和跨模态对齐来克服感知偏差。具体而言,我们通过提出的无偏因果R-CNN框架对多目标特征的相关因素建立了合理的假设,并在导航过程中利用后门干预因果调整(BICA)模块消除虚假关联偏差。为了解决2D图像特征中隐藏的动态视角偏差,我们提出采用跨模态对齐机制,并结合几何约束(GeoCon)将3D几何信息编码到2D表示中。最后,我们设计了一个集成UEVR的模块化ObjectNav框架,名为Causal-ObjectNav,该框架包括基于角点的场景探索模块和目标对象识别模块。在MP3D和HM3D数据集上的广泛实验表明,这种无偏导航模型优于现有的ObjectNav方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号