
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于隐式对齐与查询优化的RGB-T语义分割方法IQSeg研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Pattern Recognition 7.5
编辑推荐:
为解决RGB-T(可见光-热红外)语义分割中跨模态校准难题与查询模糊性问题,研究人员提出新型两阶段框架IQSeg。通过隐式对齐模块(IAM)实现无监督特征对齐,结合动态查询生成块(DQGB)优化全局上下文建模,在FMB等数据集上显著提升分割精度。该方法突破传统依赖精确配准的限制,为复杂环境下的多模态感知提供更鲁棒解决方案。
研究背景与意义
在自动驾驶和场景感知领域,语义分割技术面临低光照、雾霾等复杂环境的严峻挑战。传统RGB图像在极端条件下性能骤降,而热红外(TIR)成像虽能穿透恶劣环境,却缺乏色彩纹理信息。现有RGB-T融合方法存在两大瓶颈:一是依赖像素级对齐的跨模态校准(calibration problem),需复杂预处理或昂贵硬件;二是基于Transformer的查询机制(query ambiguity problem)因可解释性差导致优化困难。这些问题严重制约多模态分割在真实场景的应用。
北京科技大学等单位的研究人员在《Pattern Recognition》发表论文,提出IQSeg框架。该研究通过隐式对齐模块(IAM)和查询优化模块(QSM)的双阶段设计,首次实现无需显式配准的跨模态特征融合,同时突破查询模糊性限制。实验表明,在FMB、PST900等数据集上,IQSeg在未对齐条件下mIoU提升达3.7%,为动态环境下的实时感知提供新范式。
关键技术方法
研究采用两阶段架构:1)隐式对齐阶段通过可变形对齐块(DAB)学习特征偏移量,实现跨模态动态采样;2)查询优化阶段引入动态查询生成块(DQGB),基于类/实例先验迭代优化全局上下文。使用FMB(1500对RGB-T图像)、PST900(894对救援场景数据)和MSRS数据集验证,采用mIoU和Acc作为评价指标。
研究结果
结论与展望
该研究创新性地将可变形卷积与查询机制结合,首次实现无监督跨模态对齐与语义查询协同优化。隐式对齐策略突破传统配准对标注数据的依赖,动态查询机制为Transformer在分割任务中的可解释性研究提供新思路。未来可探索时序维度扩展,以应对动态目标追踪需求。作者指出,该方法在车载系统的实时性优化(<50ms/帧)将是下一阶段重点。
生物通微信公众号
知名企业招聘