一种创新的RGB-X语义分割网络：结合跨模态特征重加权与局部-全局特征聚合机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：A Novel RGB-X Semantic Segmentation Network With Cross-Modal Feature Reweighting and Local-Global Feature Aggregation

【字体：大中小】 时间：2026年02月20日 来源：Pattern Recognition 7.6

编辑推荐：

　　现有RGB-X语义分割方法依赖特定模态组合且泛化能力差，本文提出RXSSNet框架，通过跨模态特征重加权模块动态分配模态权重，结合局部-全局特征聚合模块和渐进式线性投影解码器，实现多模态传感器通用性，在6个数据集上验证有效性。

张志伟|庄燕|刘一莎|张学涛

大连理工大学控制科学与工程学院，中国大连116024

摘要

现有的多模态语义分割方法在融合RGB和其他特定类型图像（如热成像）的信息方面取得了显著进展。然而，这些方法在应用于更通用的RGB-X语义分割任务时，通常表现出有限的泛化性能。为了解决这一挑战，我们提出了一种新的RGB-X语义分割网络，该网络能够很好地泛化到不同的跨模态传感器组合，如RGB-热成像、RGB-深度或RGB-偏振。为了确保所提出的算法能够适应不同跨模态数据的融合，我们提出了一个跨模态特征重加权模块，通过计算RGB和X特征信息的余弦相似度来动态地重新分配权重。接下来，加权后的RGB和X特征被输入到局部-全局特征聚合模块（LAM）中进行局部交互和融合。为了更全面地理解上下文信息，我们在LAM中添加了跨模态全局先验信息，以实现更健壮的信息融合。最后，本文提出了一种渐进式线性投影解码器，通过逐步解码来提高分割性能。在六个多模态语义分割数据集上的广泛实验证明了所提出算法的有效性和泛化能力，在MFNet、PST900、FMB、Cityscapes、NYU Depth V2和ZJU数据集上取得了有竞争力的结果。

引言

作为模式识别中的一个基本任务，语义分割为无人系统（如自动驾驶车辆和救援机器人）提供了关键的环境感知[1]、[2]。仅依赖RGB信息的语义分割方法在复杂场景（如在夜间驾驶时的强眩光或救援任务中的低光照条件[3]、[4]）下的鲁棒性有限。这些限制导致目标识别的准确性显著下降，严重影响了无人系统在各种天气条件下的安全性和可靠性。因此，研究人员引入了补充的模态，如热成像[5]、[6]、深度感知[7]或偏振成像[8]，以增强模型在具有挑战性环境中的性能。

然而，多传感器系统在自动驾驶等领域的广泛应用凸显了现有架构的局限性，这些架构紧密绑定于特定的模态组合（例如RGB-T [9]、[10]）。一旦辅助传感器发生变化，模型通常需要重新设计和训练，这使得在现实世界应用中的部署变得困难且成本高昂。根本原因在于现有的多模态语义分割方法将融合机制与特定模态的物理特性深度耦合，导致模型架构高度依赖于特定模态。当辅助传感器切换时（例如，从热成像到深度感知），原始的特征提取器和融合策略难以适应新的信号特性，从而导致效果丧失。因此，构建能够适应多种传感器组合并具有物理通用性的感知模型已成为多模态语义分割领域的一个重要挑战。

为了解决上述挑战，我们提出了一种新的RGB-X语义分割网络（RXSSNet），该网络采用先加权后融合的范式。与传统的顺序或基于注意力的融合方法不同，这些方法常常因过度拟合于模态特定相关性而失败，本文提出的跨模态特征重加权模块（CRM）使用余弦相似度作为一种高效且轻量级的策略来衡量跨模态相关性。这种测量方法不依赖于固定的学习策略，而是直接计算跨模态特征的结构相似性并据此分配权重。这种设计使模型具有出色的适应性，能够根据输入特征的固有结构动态计算权重分布。因此，即使面对未知的传感器组合，它也能实现精确的特征集成，从根本上解决了泛化挑战。通过这种方式，该模块充当了一个语义过滤器，优先处理输入模态之间的不平衡，使网络能够在无需任何结构调整的情况下在多样化的传感器环境中表现出强大的适应性。此外，我们引入了局部-全局特征聚合模块（LAM），通过局部交互和全局先验建模来整合这些重新加权的特征。这种设计确保了互补信息的更好融合，同时增强了跨模态的泛化能力。

总之，RXSSNet提出了一个基于先加权后融合范式的RGB-X框架，旨在打破现有方法对特定模态组合的架构依赖性。通过引入基于余弦相似度的跨模态重加权机制，网络可以动态提取输入模态之间的语义共性，并有效解决由传感器差异引起的泛化挑战。本文提出的RXSSNet旨在实现以下三个目标：（i）提高对跨模态组合输入的适应性；（ii）在各种RGB-X基准测试中取得有竞争力的性能；（iii）在计算效率和分割精度之间实现有效的平衡。本文的关键贡献体现在以下四个方面：

• 我们提出了RXSSNet，这是一个新的框架，其主要优势在于其对RGB-X分割的统一架构处理，能够在RGB-热成像、RGB-深度和RGB-偏振等多种模态组合中实现广泛的泛化。

• 本文提出的跨模态特征重加权模块旨在通过计算RGB和X特征信息的相似度来动态加权特征，从而提高模型在处理多样化跨模态融合任务时的适应性和效率。

• 局部-全局特征聚合模块通过多头跨注意力增强了RGB和X信息之间的局部特征交互。为了避免信息丢失，我们在LAM中添加了跨模态全局先验信息，以实现更健壮的信息融合。

• 我们进一步提出了渐进式线性投影解码器，这是一种改进了基于MLP的解码器[11]的方法，它采用顺序细化策略逐步细化特征表示，从而提高分割性能。

得益于其模块化解耦设计，RXSSNet可以灵活适应各种跨模态组合。我们在涵盖三种模态的六个数据集上进行了广泛的验证，这不仅证明了算法的鲁棒性，还突出了其作为统一RGB-X分割框架的普遍优势。

部分摘录

多模态语义分割

基于RGB信息的语义分割方法在准确性和鲁棒性方面取得了显著进展，但在自动驾驶[5]、[8]、[12]和地下救援[2]等具有挑战性的场景中表现不佳。现有的多模态语义分割方法主要利用RGB-T、RGB-D或RGB-P的互补特性来提高模型的准确性，以便更好地识别场景中的对象。

MFNet [5]和EAFNet [8]是

方法

为了减轻现有多模态语义分割方法对特定传感器数据的依赖性，我们提出了一种新的RGB-X语义分割网络（RXSSNet），该网络能够很好地泛化到多种跨模态组合。RXSSNet是一个端到端的编码器-解码器结构，选择了ConvNext V2 [18]网络的微型版本作为骨干，对RGB和X源图像进行多阶段特征提取，如图1（a）所示。为了便于阅读和

数据集

为了评估RXSSNet的跨模态泛化能力，我们在六个涵盖RGB-T、RGB-D和RGB-P模态的多样化基准数据集上进行了实验。对于RGB-T分割，我们使用了MFNet [5]（1,569对日/夜数据）、PST900 [2]（894对高分辨率搜索和救援数据）和FMB [12]（1,500对交通场景数据）。对于RGB-D任务，我们使用了室外驾驶数据集Cityscapes [22]（3,475张图像）和室内场景数据集NYU Depth V2 [23]（1,449张图像）。最后，

失败案例分析

为了更深入地分析RXSSNet模型的鲁棒性和局限性，本节展示了几个示例性案例，结果如图8所示。在第一个案例中，所提出的RXSSNet成功识别了一个部分被遮挡的“汽车”区域。这一成功归因于模型利用多模态融合的能力；在RGB图像中被遮挡的区域在热成像模态中仍然保留了可识别的物理特征，例如汽车的余热。然而，这

结论

本文提出了RXSSNet，这是一个新的RGB-X语义分割框架，其主要优势在于其模块化的解耦设计。这种架构使RXSSNet能够灵活适应RGB-热成像、RGB-深度和RGB-偏振等多种模态组合，为异构传感器任务提供了统一的处理方式。为了突出这一通用优势，我们在六个涵盖三种不同模态类型的多模态数据集上进行了广泛的评估，包括MFNet、

CRediT作者贡献声明

张志伟：撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据整理、概念化。庄燕：撰写——审阅与编辑、资源管理、项目行政、资金获取。刘一莎：撰写——审阅与编辑、验证、项目行政。张学涛：撰写——审阅与编辑、验证。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了国家自然科学基金（授权号U22B2041, 62473070）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号