目标检测是计算机视觉中最基础也是最具挑战性的研究任务之一(Jiang等人,2024年;Ren等人,2016年;Sun等人,2021年;Wang等人,2024b年;Xu等人,2024年),其应用范围从自动驾驶(Guo等人,2024年;Liao, Chen, Wang, Cheng, Zhang, Liu, & Huang等人)到监控系统(Ding等人,2024年;Wang等人,2018年)等众多领域。随着多年的发展,标准的目标检测模型通常由三个关键神经架构组件组成:用于特征提取的骨干网络、用于多尺度特征融合的特征金字塔网络(FPN),以及用于对象分类和定位的检测头。
目标检测模型中的骨干网络通常设计用于单尺度特征提取,且常常使用来自图像分类任务的预训练权重进行初始化。然而,仅依赖单尺度特征不足以实现准确检测,因为图像中对象的大小存在差异。为了解决这一限制,特征金字塔网络(FPN)(Lin等人,2017年)作为检测器的“颈部”发挥了关键作用。FPN通过聚合来自骨干网络的多尺度特征,实现了金字塔特征表示的学习,增强了模型检测各种大小对象的能力。
为了实现多尺度特征之间的有效交互,FPN采用自上而下的方法和横向连接,将语义强度高的特征从高层传递到低层。FPN的最新进展,如PANet(Liu等人,2018年)和BiFPN(Tan等人,2020年),强调了增强特征融合对于扩大有效感受野的重要性。PANet引入了自下而上的路径来补充自上而下的流程,加强了所有层次之间的信息传播,提高了定位精度。BiFPN则利用加权特征融合和迭代优化,实现了高效且可扩展的多尺度特征聚合,进一步提升了检测性能。AugFPN(Guo等人,2020年)通过结合自适应特征选择和残差特征增强,解决了不同尺度特征之间的语义差距问题,并改善了小对象和遮挡对象的特征表示。尽管这些FPN变体展示了有希望的改进,但它们的有效感受野仍然受到其模块设计中使用的局部卷积操作的固有限制。
实现全局感受野的一个直观方法是使用全局Transformer注意力来替代局部卷积操作,这种方法已被证明能够有效捕捉长距离依赖关系(Dosovitskiy等人,2021年;Liu等人,2021年;Song等人,2024年)。然而,这种方法引入了较大的计算负担,因为注意力机制的复杂性随着特征大小的增加而呈二次方增长。在特征金字塔网络的背景下,这一问题更加严重,因为多个特征尺度被作为输入,且通常包含高分辨率的特征尺度。因此,这些限制阻碍了Transformer在FPN设计中的实际应用。
最近,Vision Mamba(Zhu等人,2024年)展示了Mamba(Gu和Dao,2023年)的显著潜力,Mamba是一种先进的状态空间模型(SSM)(Gu等人,2021年),最初开发于自然语言处理领域,可作为通用的视觉骨干网络来捕捉全局长距离依赖关系。Vision Mamba的性能与Vision Transformers相当,同时保持了线性复杂性,使其成为一种高效的替代方案。受到Vision Mamba的成功以及FPN所需的全局感受野和线性复杂性的启发,我们提出了一个自然的问题:我们能否设计出一种基于SSM的FPN,并通过简洁的调整使“不可能的两个极点”(即全局感受野和线性复杂性)成为可能?
本文通过引入MambaFPN来回答这个问题,这是一种基于状态空间模型(SSM)的新型颈部模块。MambaFPN利用Vision Mamba模块捕获骨干网络生成的多层次特征图中的全局上下文信息。这些基于SSM的模块替代了传统的卷积层,实现了具有线性计算复杂性的长距离依赖关系的高效建模。为了进一步增强特征金字塔,引入了额外的Vision Mamba模块以促进有效的跨尺度信息交换。虽然SSM模块能够成功地对一维视觉序列进行全局上下文建模,但它们不足以完全捕捉视觉数据的本质二维结构。为了解决这一限制,MambaFPN采用了三种关键设计策略:局部感知的序列化、双向建模和局部混合。局部感知的序列化机制将特征图转换为最能保留局部结构的序列。对这些序列化特征进行双向扫描,充分利用了视觉信息的方向敏感性。最后,局部混合明确编码了二维空间关系,并自适应地整合了全局和局部上下文线索。
我们在MS-COCO(Lin等人,2014年)和LVIS(Gupta等人,2019年)基准测试中验证了MambaFPN的有效性。MambaFPN在没有额外装饰的情况下,在MS-COCO上取得了新的最佳性能,与相同ResNet34骨干网络的FPN相比,盒状AP提高了11.4%,掩码AP提高了9.9%。在更具挑战性的LVIS基准测试中,MambaFPN仍表现出色,盒状AP提高了4.1%,掩码AP提高了4.1%。得益于全局感受野的固有属性,MambaFPN可以摒弃之前基于CNN的FPN架构中的复杂传播设计,显著降低了设计复杂性同时提升了性能。MambaFPN的有趣特性和强大性能使其成为目标检测领域的有力继任者。