
-
生物通官微
陪你抓住生命科技
跳动的脉搏
级联嵌入式特征金字塔网络:面向多尺度目标分割的RGB-热成像跨模态特征融合方法
【字体: 大 中 小 】 时间:2025年07月28日 来源:Neurocomputing 5.5
编辑推荐:
针对RGB-T(红绿蓝-热成像)语义分割中多尺度目标(如远处行人和近处车辆)难以同时准确分割的难题,本研究提出级联嵌入式特征金字塔网络(Cascaded Embedded-FPN),通过嵌入多尺度特征融合模块和设计多层滤波块(MFB),在MFNet和PST900数据集上分别达到76.1%和86.9%的像素精度,显著优于现有方法,为自动驾驶等安全关键领域提供鲁棒感知方案。
在复杂道路场景中,自动驾驶系统需要同时识别远处20×20像素的交通标志和近处200×200像素的车辆,这种多尺度目标分割的难题长期困扰着RGB-T(红绿蓝-热成像)语义分割领域。传统方法如U-Net或DeepLabV3+虽在单模态表现优异,但直接移植到RGB-T任务时,多模态特征的空间不连续性和计算冗余导致小目标边缘模糊、大目标分割不全。西安电子科技大学的研究团队在《Neurocomputing》发表的研究中,创新性地将特征金字塔网络(FPN)功能嵌入主干网络,提出级联嵌入式-FPN框架,通过跨模态多尺度特征融合,显著提升了复杂场景下的分割精度。
研究采用三大关键技术:1)级联子主干架构,通过逐级下采样实现多层级特征提取与融合;2)多层滤波块(MFB),采用不同膨胀率的并行3×3卷积解决传统膨胀卷积的空间不连续问题;3)跨模态感知的特征融合模块,在统一框架中同步处理RGB与热成像数据。
研究结果部分显示:
Abstract:在MFNet和PST900数据集上,模型像素精度分别达76.1%和86.9%,超越现有最优方法(SOTA)。
Introduction:实验证实传统RGB-T主干网络存在1/4-1/16尺度特征独立性问题,而嵌入式-FPN使参数量控制在EfficientSeg的1/6以内。
Proposed Model:MFB模块通过错位锚点的膨胀卷积组合,将20×20小目标的边缘准确率提升12.7%。
Experimental Procedure:消融实验表明,级联结构使200×200大目标的IoU提高9.3%,且内存占用仅增加4.2%。
讨论指出,当前RGB-T数据集规模有限且缺乏多样性,未来需扩展至多传感器协同场景。该研究的重要意义在于:首次实现主干网络内生的多尺度跨模态融合,为自动驾驶在夜间、雾霾等复杂环境提供高鲁棒性解决方案,其级联嵌入式设计范式对RGB-D(深度)、多光谱等其他跨模态任务具有普适参考价值。Yu Chen等强调,该方法在保持模型轻量化的同时,解决了多尺度目标分割的"双峰难题"——即小目标需要高分辨率细节与大目标需要强语义表征的矛盾。
生物通微信公众号
知名企业招聘