基于隐式对齐与查询优化的RGB-T语义分割方法IQSeg研究

【字体: 时间:2025年06月17日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决RGB-T(可见光-热红外)语义分割中跨模态校准难题与查询模糊性问题,研究人员提出新型两阶段框架IQSeg。通过隐式对齐模块(IAM)实现无监督特征对齐,结合动态查询生成块(DQGB)优化全局上下文建模,在FMB等数据集上显著提升分割精度。该方法突破传统依赖精确配准的限制,为复杂环境下的多模态感知提供更鲁棒解决方案。

  

研究背景与意义
在自动驾驶和场景感知领域,语义分割技术面临低光照、雾霾等复杂环境的严峻挑战。传统RGB图像在极端条件下性能骤降,而热红外(TIR)成像虽能穿透恶劣环境,却缺乏色彩纹理信息。现有RGB-T融合方法存在两大瓶颈:一是依赖像素级对齐的跨模态校准(calibration problem),需复杂预处理或昂贵硬件;二是基于Transformer的查询机制(query ambiguity problem)因可解释性差导致优化困难。这些问题严重制约多模态分割在真实场景的应用。

北京科技大学等单位的研究人员在《Pattern Recognition》发表论文,提出IQSeg框架。该研究通过隐式对齐模块(IAM)和查询优化模块(QSM)的双阶段设计,首次实现无需显式配准的跨模态特征融合,同时突破查询模糊性限制。实验表明,在FMB、PST900等数据集上,IQSeg在未对齐条件下mIoU提升达3.7%,为动态环境下的实时感知提供新范式。

关键技术方法
研究采用两阶段架构:1)隐式对齐阶段通过可变形对齐块(DAB)学习特征偏移量,实现跨模态动态采样;2)查询优化阶段引入动态查询生成块(DQGB),基于类/实例先验迭代优化全局上下文。使用FMB(1500对RGB-T图像)、PST900(894对救援场景数据)和MSRS数据集验证,采用mIoU和Acc作为评价指标。

研究结果

  1. 隐式对齐模块的有效性:DAB通过3×3可变形卷积学习空间偏移,相比显式配准方法(如Huang的微配准模块),在未对齐数据上特征相似度提升18.6%。
  2. 查询优化机制:DQGB生成的类感知查询使小目标(如交通标志)分割AP50
    提高5.2%,实例感知查询优化使遮挡物体边界F-score提升3.4%。
  3. 跨数据集验证:在FMB的雾霾场景中,IQSeg相较SOTA方法(如MFNet)保持83.1% Acc,光照变化下鲁棒性显著增强。

结论与展望
该研究创新性地将可变形卷积与查询机制结合,首次实现无监督跨模态对齐与语义查询协同优化。隐式对齐策略突破传统配准对标注数据的依赖,动态查询机制为Transformer在分割任务中的可解释性研究提供新思路。未来可探索时序维度扩展,以应对动态目标追踪需求。作者指出,该方法在车载系统的实时性优化(<50ms/帧)将是下一阶段重点。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号