MambaFPN:一种基于SSM(Spatially Segmented Multi-Head)的特征金字塔网络,用于目标检测

《Neural Networks》:MambaFPN: A SSM-based Feature Pyramid Network for Object Detection

【字体: 时间:2026年01月12日 来源:Neural Networks 6.3

编辑推荐:

  特征金字塔网络通过多尺度特征融合提升物体检测效果,但传统CNN模块难以捕捉全局上下文。本文提出MambaFPN,采用Vision Mamba模块替代CNN,利用状态空间模型实现线性复杂度下的全局信息建模,通过局部感知序列化、双向建模和空间混合策略增强多尺度特征交互,在COCO和LVIS数据集上显著优于基线FPN。

  
梁乐|王成|张乐飞
武汉大学计算机科学学院,中国武汉,430072

摘要

目标检测是计算机视觉中的基本任务,旨在定位和分类图像中的对象。特征金字塔网络(FPNs)在现代目标检测器中发挥着关键作用,通过构建分层的多尺度特征图来有效处理不同大小的对象。然而,大多数现有的先进FPN方法严重依赖于卷积神经网络(CNNs),而这些网络在捕捉全局上下文信息方面存在困难。为了解决这一限制,我们提出利用Vision Mamba模块来增强全局建模能力。传统的Vision Mamba模块通过其状态空间机制,使得单个特征图中的每个空间像素都能进行全局上下文建模。在此基础上,我们首先使用Vision Mamba模块从层次结构中的各个特征图中提取全局信息。随后,额外的Vision Mamba模块促进了多尺度特征图之间的信息交换,确保了全局上下文的全面整合。所提出的方法称为MambaFPN,显著提升了目标检测器的性能。例如,它将传统FPN的平均精度(AP)从38.6提高到了39.4,并且参数更少。这证明了MambaFPN在推进目标检测方面的有效性和效率。

引言

目标检测是计算机视觉中最基础也是最具挑战性的研究任务之一(Jiang等人,2024年;Ren等人,2016年;Sun等人,2021年;Wang等人,2024b年;Xu等人,2024年),其应用范围从自动驾驶(Guo等人,2024年;Liao, Chen, Wang, Cheng, Zhang, Liu, & Huang等人)到监控系统(Ding等人,2024年;Wang等人,2018年)等众多领域。随着多年的发展,标准的目标检测模型通常由三个关键神经架构组件组成:用于特征提取的骨干网络、用于多尺度特征融合的特征金字塔网络(FPN),以及用于对象分类和定位的检测头。
目标检测模型中的骨干网络通常设计用于单尺度特征提取,且常常使用来自图像分类任务的预训练权重进行初始化。然而,仅依赖单尺度特征不足以实现准确检测,因为图像中对象的大小存在差异。为了解决这一限制,特征金字塔网络(FPN)(Lin等人,2017年)作为检测器的“颈部”发挥了关键作用。FPN通过聚合来自骨干网络的多尺度特征,实现了金字塔特征表示的学习,增强了模型检测各种大小对象的能力。
为了实现多尺度特征之间的有效交互,FPN采用自上而下的方法和横向连接,将语义强度高的特征从高层传递到低层。FPN的最新进展,如PANet(Liu等人,2018年)和BiFPN(Tan等人,2020年),强调了增强特征融合对于扩大有效感受野的重要性。PANet引入了自下而上的路径来补充自上而下的流程,加强了所有层次之间的信息传播,提高了定位精度。BiFPN则利用加权特征融合和迭代优化,实现了高效且可扩展的多尺度特征聚合,进一步提升了检测性能。AugFPN(Guo等人,2020年)通过结合自适应特征选择和残差特征增强,解决了不同尺度特征之间的语义差距问题,并改善了小对象和遮挡对象的特征表示。尽管这些FPN变体展示了有希望的改进,但它们的有效感受野仍然受到其模块设计中使用的局部卷积操作的固有限制。
实现全局感受野的一个直观方法是使用全局Transformer注意力来替代局部卷积操作,这种方法已被证明能够有效捕捉长距离依赖关系(Dosovitskiy等人,2021年;Liu等人,2021年;Song等人,2024年)。然而,这种方法引入了较大的计算负担,因为注意力机制的复杂性随着特征大小的增加而呈二次方增长。在特征金字塔网络的背景下,这一问题更加严重,因为多个特征尺度被作为输入,且通常包含高分辨率的特征尺度。因此,这些限制阻碍了Transformer在FPN设计中的实际应用。
最近,Vision Mamba(Zhu等人,2024年)展示了Mamba(Gu和Dao,2023年)的显著潜力,Mamba是一种先进的状态空间模型(SSM)(Gu等人,2021年),最初开发于自然语言处理领域,可作为通用的视觉骨干网络来捕捉全局长距离依赖关系。Vision Mamba的性能与Vision Transformers相当,同时保持了线性复杂性,使其成为一种高效的替代方案。受到Vision Mamba的成功以及FPN所需的全局感受野和线性复杂性的启发,我们提出了一个自然的问题:我们能否设计出一种基于SSM的FPN,并通过简洁的调整使“不可能的两个极点”(即全局感受野和线性复杂性)成为可能?
本文通过引入MambaFPN来回答这个问题,这是一种基于状态空间模型(SSM)的新型颈部模块。MambaFPN利用Vision Mamba模块捕获骨干网络生成的多层次特征图中的全局上下文信息。这些基于SSM的模块替代了传统的卷积层,实现了具有线性计算复杂性的长距离依赖关系的高效建模。为了进一步增强特征金字塔,引入了额外的Vision Mamba模块以促进有效的跨尺度信息交换。虽然SSM模块能够成功地对一维视觉序列进行全局上下文建模,但它们不足以完全捕捉视觉数据的本质二维结构。为了解决这一限制,MambaFPN采用了三种关键设计策略:局部感知的序列化、双向建模和局部混合。局部感知的序列化机制将特征图转换为最能保留局部结构的序列。对这些序列化特征进行双向扫描,充分利用了视觉信息的方向敏感性。最后,局部混合明确编码了二维空间关系,并自适应地整合了全局和局部上下文线索。
我们在MS-COCO(Lin等人,2014年)和LVIS(Gupta等人,2019年)基准测试中验证了MambaFPN的有效性。MambaFPN在没有额外装饰的情况下,在MS-COCO上取得了新的最佳性能,与相同ResNet34骨干网络的FPN相比,盒状AP提高了11.4%,掩码AP提高了9.9%。在更具挑战性的LVIS基准测试中,MambaFPN仍表现出色,盒状AP提高了4.1%,掩码AP提高了4.1%。得益于全局感受野的固有属性,MambaFPN可以摒弃之前基于CNN的FPN架构中的复杂传播设计,显著降低了设计复杂性同时提升了性能。MambaFPN的有趣特性和强大性能使其成为目标检测领域的有力继任者。

相关工作

相关研究

特征金字塔网络。特征金字塔基于分而治之的原则构建,旨在将不同大小的对象分配到相应的特征图中。虽然大多数方法使用最终的降采样特征图进行预测,但SSD(Liu等人,2016年)结合了来自骨干网络的多尺度特征图来进行对象定位。然而,这会在层次化特征图之间引入语义差距。FPN(Lin等人,2017年)通过……

双向Mamba结构

在Mamba架构中,序列建模基于连续时间线性状态空间模型(SSM),其中隐藏状态h(t)总结了过去的输入,使模型能够捕捉长距离依赖关系。它紧凑地保留了之前步骤的相关信息,并为后续计算提供了历史上下文,有效地充当了模型的记忆。状态更新如下:h(t)=Ah(t)+ Bx(t)表明状态演化既取决于其当前值h(

实验设置

数据集。我们在两个数据集上进行实验:MS-COCO(Lin等人,2014年)和LVIS(Gupta等人,2019年)。
MS-COCO是一个广泛用于目标检测和实例分割的数据集,包含描绘自然场景的多样化图像。它包括来自80个类别的对象,共有118k张训练图像和5k张验证图像,以及大约120万个实例分割掩码注释。在我们的实验中,我们在MS-COCO上训练模型

结论

在本文中,我们提出了MambaFPN,这是一种基于状态空间模型(SSM)的特征金字塔网络方法,用于目标检测和实例分割。MambaFPN利用状态空间模型在分层多尺度特征图中聚合全局特征上下文。在COCO和LVIS等广泛使用的基准数据集上,MambaFPN的表现优于传统的特征金字塔网络(FPN),同时参数更少。我们还验证了其有效性

CRediT作者贡献声明

梁乐:撰写——原始草稿,可视化,形式分析,数据整理,概念化。王成:软件开发,调查。张乐飞:撰写——审稿与编辑,监督,方法论,资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号