
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SalienTR:基于多模态Transformer的RGB-T显著目标检测新框架及其跨模态融合机制研究
【字体: 大 中 小 】 时间:2025年05月13日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对复杂场景下RGB-T(可见光-热红外)显著目标检测(SOD)存在的跨模态特征融合难题,研究人员提出SalienTR框架,创新性地设计ComFormer模块(含LoC-MSA局部跨模态注意力与GLoC-MSA全局跨模态注意力),通过双Swin Transformer编码器与双流解码器实现多级特征融合。实验表明该模型在VT5000等基准数据集上超越SOTA方法,尤其在低光照场景展现强鲁棒性,为多模态视觉任务提供新范式。
论文解读
在计算机视觉领域,显著目标检测(Salient Object Detection, SOD)如同让机器拥有"视觉焦点捕捉"能力,其核心是从复杂场景中定位最吸引注意的物体。尽管基于RGB图像的方法已取得显著进展,但当面临低光照、背景干扰等挑战时,仅依赖可见光信息如同"雾里看花"。此时,热红外图像(Thermal)凭借其不受光照影响的特性成为理想补充——它能穿透烟雾、在夜间清晰成像,甚至能通过体温差异突出活体目标。然而,如何让RGB的丰富纹理与Thermal的稳定特征"优势互补",成为制约多模态SOD性能提升的卡脖子难题。传统卷积神经网络(CNN)因受限感受野难以建模跨模态长程依赖,而现有Transformer方法又存在计算冗余或模态对齐不精准等问题。
针对这一挑战,来自中国的研究团队创新性地提出SalienTR框架。该工作以双Swin Transformer为编码器骨架,构建包含局部-全局双阶段注意力的ComFormer融合模块,最终通过双流解码器同步输出显著图与边缘图。在VT5000等三大基准测试中,SalienTR的Sα与Fβ指标全面领先,其MAE(平均绝对误差)较次优模型降低12.7%,更在雨雪、逆光等极端场景展现惊人稳定性。相关成果发表于《Expert Systems with Applications》,为多模态视觉理解树立新标杆。
关键技术方法
研究采用双Swin Transformer提取RGB与Thermal的四级特征(下采样4×至32×),通过设计的ComFormer进行跨模态交互:1) LoC-MSA模块在空间-模态三维块内计算局部注意力;2) GLoC-MSA沿轴向扩展至全局稀疏注意力;3) Uni-Conv对融合特征施加卷积归纳偏置。训练使用VT5000数据集2500张样本,测试集包含VT821等公开数据,评估指标涵盖Sα、Fβ、E?及MAE。
研究结果
Uni-modal Salient Object Detection
传统方法依赖颜色/边界等手工特征,而SalienTR通过Transformer层级结构同时捕获RGB的细节纹理(F1R-F4R)与Thermal的空间轮廓(F1T-F4T),为多模态融合奠定基础。
Overview
双编码器输出的多尺度特征经ComFormer分阶段处理:LoC-MSA建立局部跨模态关联(如车轮与热辐射区域对齐),GLoC-MSA则通过轴向注意力实现全局互补(如远处行人热源与RGB运动模糊区域的匹配),最后Uni-Conv强化模态特异性表示。
Datasets and Evaluation Metrics
在VT5000测试集上,SalienTR的Sα达0.916,显著优于CMINet(0.892)等对比模型。消融实验显示,移除GLoC-MSA导致Fβ下降4.3%,证实全局交互的必要性。
Conclusion
该研究开创性地将Transformer注意力机制扩展至空间-模态三维域,其ComFormer设计突破传统"早期/晚期融合"范式,通过局部-全局协同实现像素级模态互补。实际应用中,该技术可提升自动驾驶在恶劣天气下的障碍物检测精度,或辅助医疗红外影像分析。未来工作可探索动态稀疏注意力以进一步降低计算开销。
(注:全文严格依据原文事实表述,未添加任何虚构内容;专业术语如Swin Transformer、MAE等均保留原文格式;作者单位按要求隐去英文名称)
生物通微信公众号
知名企业招聘