AdaptRGB-t:通过高效的参数调整和文本引导实现自适应RGB-t语义分割

《Neurocomputing》:AdaptRGB-t: Adaptive RGB-t semantic segmentation via efficient parameter-tuning with textual guidance

【字体: 时间:2025年11月10日 来源:Neurocomputing 6.5

编辑推荐:

  可靠语义分割对智能系统至关重要,现有RGB-T分割模型依赖视觉特征且缺乏文本信息,易在相似视觉类别中误分割。针对SAM模型在RGB-T域的跨模态融合不足及参数敏感问题,本文提出AdaptRGB-T框架,通过LoRA参数高效微调适配RGB-T特征,引入增强Transformer块(ETB)融合多模态视觉特征,并集成CLIP文本嵌入优化掩码解码器,实现语义对齐与分类纠错。实验表明该方法在多样化数据集上优于基线,参数效率提升且泛化能力强。

  
孟宇|岳玉峰|杨毅|傅梦音
北京工业大学自动化学院,北京 100081,中国

摘要

可靠的语义分割对于智能系统至关重要,但仍存在一些显著问题:1) 现有的RGB-热成像(RGB-T)分割模型主要依赖于视觉特征,缺乏文本信息,当类别具有相似的视觉特征时,这可能导致分割不准确。2) 虽然SAM在实例级分割方面表现优异,但将其与热成像和文本结合受到模态异质性和计算效率低下的限制。基于这些观察,我们提出了AdaptRGB-T,这是一个参数效率高的微调框架,使用低秩适应(LoRA)技术来适应RGB-T语义分割。具体来说,我们提出了一个增强型Transformer块(ETB),它冻结了SAM原有的Transformer块,并引入了可训练的LoRA层以实现高效的RGB-T特征融合。此外,我们在掩码解码器中加入了CLIP生成的文本嵌入,以实现语义对齐,进一步纠正了分类错误并提高了语义理解准确性。在多种数据集上的实验结果表明,我们的方法在具有较少可训练参数的挑战性场景中表现更为优越。代码将在https://github.com/mengyu212/AdaptRGBT处提供。

引言

语义分割在智能系统的场景理解中起着基础性作用,应用于自动驾驶[1]、机器人操作[2]和遥感[3]等领域。将图像准确分割成语义标记的区域使这些系统能够更有效地与环境互动,提升其操作能力和决策过程。
尽管之前的研究[4]、[5]在标准的基于RGB的数据集上取得了显著的分割性能,但在恶劣天气或光照不足等复杂条件下往往表现不佳。为了解决这个问题,研究人员[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]引入了热成像/红外图像来增强视觉感知任务的性能。尽管取得了显著进展,但这些方法主要依赖于视觉特征。当这些视觉线索因遮挡或恶劣环境因素而变得模糊时,这些以视觉为中心的系统难以建立可靠的特征表示。这种限制阻碍了它们在复杂场景中准确分割单个对象的能力,特别是在对象被遮挡、重叠或边界模糊的情况下,如图1(a)中CAINet的表现所示。因此,需要结合额外的语义线索(如文本信息)来帮助提高细粒度分割的高级语义理解。由于结合语言先验可以提供关键优势,包括通过语义约束消除视觉上相似的类别,以及在部分遮挡下保持一致的物体识别。
最近的基础模型进展,如Segment Anything Model(SAM)[14],展示了出色的泛化能力和强大的实例分割能力。同样,Vision-Language Models(VLMs)如CLIP [15]和ALIGN [16]通过 align 视觉和文本表示[17]、[18]、[19],彻底改变了语义理解。然而,将这些模型应用于RGB-T领域时会出现一个重大问题:RGB和热成像模态之间的固有异质性往往导致性能不佳,如图1(Ovseg [18] (a)所示,该模型将属于某个对象的像素分类为已知类别之一。这是因为RGB-T领域的数据分布与模型预训练数据中的数据分布不同。此外,使用全部参数对这些大型模型进行微调在计算上非常昂贵且不切实际,尤其是在特定任务的数据集规模较小的情况下。基于此,DPLNet [20]、GoPT [21]和OpenRSS [22]利用微调技术来适应RGB-T特征提取。然而,这些方法优先考虑编码器微调,而忽略了解码器的优化,这限制了它们构建跨模态(例如视觉-文本)特征交互的能力。
受上述观察的启发,我们提出了一个新的框架,用于适应RGB-T语义分割任务。在扩展我们之前的工作[23]的基础上,我们对所提出的方法进行了全面分析,在更多测试场景中进行了验证,并进行了广泛的消融研究。具体来说,采用了低秩适应(LoRA)微调技术来高效地适应SAM的图像编码器和掩码解码器,将可训练的低秩矩阵引入模型,同时保持大部分预训练参数的冻结状态。为了适应多传感器特征融合,我们引入了从图像编码器的原始Transformer块派生的增强型Transformer块(ETB),有效地合并了多种视觉模态的特征。此外,在掩码解码器中加入了CLIP模型生成的文本嵌入,以增强语义理解。通过将文本嵌入与视觉特征对齐,我们的方法纠正了语义分类错误并提高了物体分割的准确性。
总结来说,本文的贡献如下:
  • 1.
    我们提出了AdaptRGB-T,它使用LoRA来适应基于RGB的SAM进行RGB-T语义分割,并引入了高效的跨模态特征融合机制ETB。
  • 2.
    我们提出了一种基于CLIP的、由文本引导的掩码生成方法,该方法使用跨注意力(以图像特征作为查询)来增强语义对齐和分割准确性。
  • 3.
    在基准数据集上的广泛实验证明了我们方法的有效性,展示了其在不同数据分布下的泛化能力。
  • 本文的其余部分组织如下。第二节描述了关于RGB-T和基于VLM的语义分割的最新相关工作。第三节详细介绍了所提出的方法。第四节提供了实验结果和分析。最后,第五节总结了这项工作。

    部分摘录

    相关工作

    在本节中,我们简要概述了RGB-T语义分割、基于VLM的语义分割和微调技术的最新进展,并讨论了本文涉及的相关方法。

    提出的方法

    在本节中,我们描述并阐述了所提出的方法,分为四个小节:框架概述、高效的多传感器融合机制、文本引导的掩码生成和损失函数。

    实验

    在本节中,我们首先介绍数据集和实验设置。其次,我们与最先进的方法进行了定性和定量比较。然后,我们进行了一系列消融研究,以全面分析我们提出方法中各个组件的贡献。最后,我们讨论了我们方法的效率和泛化能力。

    结论

    在本文中,我们提出了AdaptRGB-T,这是一个参数效率高的RGB-T语义分割框架。通过冻结SAM的大部分原始参数并选择性地引入可训练的LoRA层,我们的方法在计算效率和任务特定性能之间取得了平衡,非常适合多模态分割任务。与现有的RGB-T语义分割方法相比,我们的方法能够分割像素级别的对象。

    CRediT作者贡献声明

    孟宇:撰写——原始草稿、验证、方法论、概念化。岳玉峰:撰写——审稿与编辑、监督、方法论、概念化。杨毅:监督。傅梦音:监督。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    孟宇于2020年获得华北大学仪器与电子学院的自动化学士学位。她目前是北京工业大学自动化学院的控制科学与工程专业的博士生。她的研究兴趣包括多模态传感器融合、机器人感知和计算机视觉。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号