
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合热成像边缘特征的增强型RGB-T语义分割网络ERTFNet及其在复杂场景中的应用
【字体: 大 中 小 】 时间:2025年06月28日 来源:Computer Vision and Image Understanding 4.3
编辑推荐:
为解决RGB-Thermal(RGB-T)融合网络中模态特征差异被忽视导致的噪声冗余问题,研究人员提出增强型RGB-T融合网络ERTFNet。该模型通过独立分支提取RGB注意力特征与热成像边缘特征,结合空间边缘约束损失函数,在MFNet等数据集上实现SOTA性能,显著提升复杂光照下的分割精度与边界清晰度。
在自动驾驶和智能监控领域,语义分割(Semantic Segmentation)是环境感知的核心技术。然而,传统基于RGB图像的方法在夜间、雾天等极端光照条件下性能骤降,而热成像(Thermal Imaging)虽能穿透黑暗却缺乏纹理细节。现有RGB-Thermal融合网络如RTFNet、MFNet等采用统一模块处理双模态数据,导致热成像的冗余特征干扰RGB主导的分割结果。这一问题在复杂道路场景中尤为突出——例如,白昼环境下热成像可能引入无关热辐射噪声,而夜间RGB图像又难以识别隐蔽行人。如何平衡双模态优势,成为提升分割精度的关键挑战。
针对这一难题,中国研究人员提出增强型RGB-T融合网络ERTFNet。该模型创新性地采用差异化特征提取策略:在RGB分支引入位置注意力模块(Position Attention Module)和通道注意力模块(Channel Attention Module)强化上下文感知能力;在热成像分支专注提取前景物体边缘特征,避免全特征融合带来的噪声。通过编码器-解码器架构,ERTFNet将热成像的边缘信息作为RGB特征的补充,并设计包含图像内容约束与边缘相似性约束的复合损失函数(ERTFNet Loss)。实验证明,该方法在MFNet和另一个公开数据集上超越9种对比模型,夜间场景的mIoU(mean Intersection over Union)提升显著,尤其对行人、车辆等关键目标的轮廓分割更为精确。
关键技术包括:1)双分支编码器分别处理RGB与热成像数据;2)空间注意力机制捕捉长程依赖关系;3)基于热成像的边缘特征提取技术;4)融合边缘约束的复合损失函数设计。实验数据来自公开数据集MFNet(1569张标注图像,含昼夜场景)及另一未命名数据集。
研究结果部分:
RGB-T语义分割网络
通过对比MFNet、RTFNet等传统方法,指出其同构特征提取导致模态优势未被充分利用的问题。
Proposed model
ERTFNet的编码器中,RGB分支通过注意力模块生成权重图,热成像分支采用边缘检测算子提取轮廓,二者特征图通过加权融合进入解码器。
Datasets
在MFNet数据集上,ERTFNet对"行人"类别的夜间分割精度较基线提升11.2%,边界F-score提高9.8%。
Conclusion
该方法首次实现热成像边缘特征的定向融合,为多模态分割提供新思路。消融实验验证边缘约束损失使边界像素准确率提升6.3%。
这项发表于《Computer Vision and Image Understanding》的研究,其重要意义在于:1)突破传统融合网络同质化处理双模态的局限;2)证实热成像边缘特征对复杂场景分割的定向增强作用;3)提出的空间边缘约束机制可泛化至其他多模态任务。未来可探索该框架在医疗影像(如红外-可见光肿瘤分割)中的应用潜力。
生物通微信公众号
知名企业招聘