
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于视觉Mamba的多粒度表征学习在红外小目标检测中的创新应用
【字体: 大 中 小 】 时间:2025年07月08日 来源:International Journal of Applied Earth Observation and Geoinformation 7.6
编辑推荐:
针对红外小目标检测(IRSTD)中异质环境和低信杂比(SCR)的挑战,研究人员提出融合CNN局部特征提取与Mamba长程建模能力的MRL-Mamba模型。通过嵌套金字塔结构提取多粒度特征,采用非对称卷积(AConv)降低计算复杂度,实验表明该模型在公开数据集上优于12种基线方法,为复杂场景下的精准目标定位提供了新思路。
在航空航天、导弹制导等关键领域,红外小目标检测(IRSTD)技术面临严峻挑战。复杂背景中的目标往往缺乏颜色纹理特征,信杂比(SCR)极低,传统方法难以应对。卷积神经网络(CNN)受限于局部感受野,Transformer则因二次计算复杂度难以实用。更棘手的是,目标在深层网络中特征易消失,而纯Mamba模型又缺乏局部特征提取能力。这些瓶颈严重制约着红外探测技术的实际应用效能。
中国某研究机构团队在《International Journal of Applied Earth Observation and Geoinformation》发表创新成果,提出多粒度表征学习与视觉Mamba融合的MRL-Mamba模型。研究采用嵌套金字塔网络提取细粒度特征,通过视觉状态空间(VSS)模块捕获长程依赖,创新性设计非对称卷积(AConv)替代传统深度可分离卷积(DWConv)。实验采用IRDST和IRSTD-1k两个公开数据集,与12种主流方法进行对比验证。
关键技术包括:1)构建两级密集嵌套金字塔结构,嵌入上下文金字塔块提取精细特征;2)将特征图分割为"视觉语句"通过Mamba模块获取粗粒度特征;3)设计AConv减少参数和浮点运算次数(FLOPs);4)结合像素级MSE损失和对抗损失优化网络。
【VSS模块设计】
研究团队开发的2D选择性扫描(SS2D)技术通过四向扫描策略处理红外图像,经S6块加权处理后合并序列。实验显示,该模块在保持线性计算复杂度的同时,选择性增强目标相关特征,背景抑制因子(BSF)达到最优水平。
【嵌套上下文金字塔】
可视化特征图证实,该结构能有效保留深层网络中的小目标特征。相比ResNet50-FPN基线方法,检测概率(Pd)提升1.4%,误报率(Fa)降低7.3%。特征金字塔M1-M3层的跨尺度连接实现了多级特征的高效聚合。
【残差非对称卷积】
性能测试表明,AConv的浮点运算效率(FLOPS)比常规卷积高25倍,内存访问资源节省80%。在RTX 4090GPU上,网络延迟稳定维持在53.11FPS,显著优于传统DWConv架构。
【综合性能验证】
在5类典型场景测试中,MRL-Mamba的曲线下面积(AUC)均值达0.9997,SCRG指标超越第二名ISTDU-Net 0.8%。添加方差0.004的高斯噪声后,仍保持99.98%的检测精度,展现出卓越的鲁棒性。
该研究开创性地将状态空间模型(SSM)引入红外探测领域,通过多粒度特征融合解决了小目标定位难题。嵌套金字塔结构与Mamba的协同设计,既克服了CNN的全局视野局限,又规避了Transformer的计算瓶颈。特别值得关注的是,AConv的创新应用为轻量化网络设计提供了新范式。未来研究可进一步探索Mamba在高分辨率红外图像上的应用潜力,并加强其决策机制的可解释性研究。这项技术有望在导弹预警、森林防火等关键领域发挥重要作用,为复杂环境下的智能感知提供可靠解决方案。
生物通微信公众号
知名企业招聘