《Digital Signal Processing》:LGHVSS-Mamba YOLO: High-Precision Small Object Detection via Dynamic State Space Modeling and Multi-scale Feature Optimizing in Complex Scenarios
编辑推荐:
针对无人机图像中小目标检测存在的特征表示不足和复杂环境干扰问题,提出LGHVSS-Mamba YOLO模型。通过动态感知野空间金字塔池化模块GMSPPF、轻量级自适应卷积LAE、状态空间通道双注意力混合金字塔网络SEVSS-HSFPN和部分卷积双支路特征提取模块PConv_C3k2,实现多尺度特征协同优化与边缘细节增强,在VisDrone2019和HazyDet数据集上mAP50分别提升7.7%和4.6%,参数量减少17万。
蒋崇军|张荣芬|刘玉红|谢远伦|徐源|李勇|龚彦明
贵州大学大数据与信息工程学院,中国贵州贵阳,550025
摘要
尽管深度学习在目标检测性能上取得了显著进展,但由于特征表示不足以及对背景干扰(例如在雾天场景中)的敏感性增加,小目标的识别在实际应用中仍然受到限制。为了解决这些挑战,我们提出了动态状态空间模型LGHVSS-Mamba YOLO,这是一个结合了YOLOv11和Mamba架构的高精度目标检测框架。首先,我们提出了一个轻量级的动态感受野空间金字塔池化模块GMSPPF,使其能够建立动态感受野以捕捉上下文关系。其次,通过将轻量级的动态感受野空间金字塔池化模块(GMSPPF)与轻量级自适应卷积(LAE)相结合,我们提出了一个轻量级的动态状态空间双特征提取主干网络,称为LGM-ODMamba Block。随后,设计了状态空间通道双注意力混合金字塔网络SEVSS-HSFPN:采用SENetV2注意力机制优化HSFPN,并引入了空间动态扫描机制VSSBlock_Mamba,以共同增强浅层特征的边缘细节捕捉能力。最后,设计了部分卷积双分支轻量特征提取模块PConv_C3k2,以实现轻量化设计并提高计算效率,同时保持多尺度特征提取能力。因此,通过整合YOLOv11和Mamba YOLO的互补优势,并以多尺度特征动态感知为中心,本研究提出了一个高效的轻量级LGHVSS-Mamba YOLO模型。在VisDrone2019和HazyDet数据集上的实验结果表明,在VisDrone2019数据集上,mAP50提高了7.7%,mAP50:95提高了5.5%,参数大小减少了0.17M;在HazyDet数据集的雾天场景中,mAP50提高了4.6%,mAP50:95提高了4.9%。所有实验均验证了该模型在复杂场景中对小目标的高精度检测能力。
引言
小目标检测是目标检测领域的一个关键研究方向,旨在精确识别小目标场景中的目标对象,并确定其类别、形状、位置等信息。这为避障、交互和运动调整等应用提供了感知支持[1]。近年来,无人机图像或UAV图像中的目标检测已成为小目标检测的一个突出课题。无人机或UAV图像凭借其紧凑的尺寸、低成本和高灵活性,已成为军事侦察、智能农业、智能交通等领域的关键平台。然而,无人机图像通常包含大量小目标,且分辨率较低,像素不足,这从源头上就使得小目标的特征提取变得复杂。因此,小目标识别面临着特征表示不足的显著难题:一方面,小目标本身的分辨率和像素数量有限,难以携带足够的视觉信息,从而导致特征提取的基础薄弱;另一方面,随着卷积神经网络深度的增加,浅层中的细粒度特征(如对象边缘和局部纹理)在传播过程中容易衰减甚至消失。此外,大多数算法对小目标的细微特征关注不足,进一步导致在卷积操作过程中有效特征的持续丢失。最终,小目标的特征表示始终不够充分,无法为后续检测提供足够的区分度。
此外,在雾天条件下进行小目标检测对于智能交通、安全监控、无人机巡检等领域至关重要,其检测精度直接影响恶劣天气下的决策可靠性。例如,在雾天条件下的城市交叉口进行车辆识别和行人预警时,未能检测到远处的小型车辆或低矮障碍物可能会导致安全事故或任务偏差。众所周知,雾天条件下的大气散射会导致图像对比度下降和细节模糊,再加上小对象本身的特点(如低像素比例和有限的特征维度),进一步掩盖了它们的有效特征。这导致了环境干扰和目标脆弱性的双重检测挑战,使得模型受到更强的背景干扰,对象特征不清晰,轮廓模糊,从而显著增加了检测难度。此外,现有的目标检测算法往往对小目标的细微特征关注不足,在卷积操作过程中容易发生特征丢失,难以满足实际应用需求。因此,在复杂场景(如雾天条件)下对无人机图像中小目标进行准确检测的研究具有重要的理论意义和实用价值。
目前,基于深度学习的对象检测算法根据候选边界框的存在与否分为一类和两类方法。两类方法分别以Fast R-CNN [2]和Faster R-CNN [3]等模型为代表,而一类方法包括YOLO [4]和SSD [5]。同时,还有基于Transformer的检测方法,如DETR [6]和RT-DETR [7]。然而,这些模型和方法存在某些局限性。Transformer在处理长序列数据时的核心瓶颈在于其二次方计算复杂性,随着序列长度的增加而呈二次方增长。以RT-DETR模型为例,尽管其检测性能出色,但模型复杂性也显著增加。另一方面,基于CNN的YOLO模型受到卷积核的局部感受野的限制,难以建立全局依赖关系。
总体而言,大多数基于深度学习的对象检测算法都是为自然场景设计的,在直接应用于无人机图像中的复杂场景的小目标检测时表现不佳。这主要是由于无人机捕获的航空图像中目标尺度变化显著、目标尺寸小、目标密度高以及受天气条件影响等因素导致的检测精度显著下降[8]。为了克服这些挑战,本文提出了LGHVSS-Mamba YOLO,一种动态状态空间扫描和多尺度特征协同优化的目标检测模型。本研究的主要贡献如下:
(1) 我们设计了轻量级的动态状态空间LGM-ODMamba Block主干架构:提出了创新的轻量级动态感受野空间金字塔池化模块GMSPPF,并引入了轻量级自适应提取卷积LAE来优化ODMamba Block结构。同时,创新性地采用了双特征提取模块C3k2和VSSBlock_Mamba进行多尺度特征协同优化,确保了模型精度的提高,同时减少了模型参数的数量。
(2) 我们设计了状态空间通道双注意力混合金字塔网络SEVSS-HSFPN:采用SENetV2注意力机制改进了HSFPN的特征金字塔,并巧妙地引入了空间动态扫描机制VSSBlock_Mamba,以共同增强浅层特征的捕捉能力,并加强不同方向上小目标的空间相关性。
(3) 我们提出了部分卷积双分支轻量特征提取模块PConv_C3k2,实现了轻量化设计,同时保持了多尺度特征提取能力,从而提高了计算效率。
本文的后续结构如下:第2节“相关工作”回顾了复杂场景中小目标检测的研究进展和局限性以及检测模型。第3节“提出方法”详细阐述了LGHVSS-Mamba YOLO模型的架构及其核心模块的设计。第4节“实验配置和性能指标”指定了硬件和软件配置、训练参数以及评估标准。第5节“实验结果分析”展示了与基线模型的定量比较和消融研究。第6节“实验可视化”使我们能够直观观察到模型与原始模型之间的性能差异。第7节“讨论”涵盖了研究发现、科学价值、模型局限性和潜在的未来改进。
相关研究
在小目标检测领域,尽管目标检测技术不断进步,但在精确识别微小且密集聚集的目标方面仍存在显著挑战。这些困难在复杂环境条件下(如雾天)尤为明显。为了解决这些挑战,近年来投入了大量研究努力来推进小目标检测方法的发展。例如,张红英[9]等人提出了
LGHVSS-Mamba YOLO算法模型的整体结构图
所提出的LGHVSS-Mamba YOLO算法的模型结构图如图1所示。创新之处包括:首先,设计了轻量级的动态状态空间LGM-ODMamba Block主干架构;提出了轻量级的动态感受野空间金字塔池化模块GMSPPF,并引入了轻量级自适应提取卷积LAE来优化ODMamba Block结构;同时,采用C3k2和VSSBlock_Mamba进行特征协同提取,以确保模型精度的提高并减少模型参数的数量。
数据集
本研究使用两个公开可用的数据集VisDrone2019和HazyDet进行实验,因为它们与复杂场景中小目标检测的研究要求高度契合。VisDrone2019涵盖了夜间、密集遮挡和极小目标等典型挑战场景,用于评估模型的通用检测能力。相比之下,HazyDet专注于对比度低和轮廓模糊的雾天环境
消融实验
为了验证改进算法的有效性,在VisDrone2019数据集上进行了不同的增强策略消融实验,训练条件保持一致。选择YOLOv11n作为基线模型,所有实验组的参数设置保持一致。消融实验包括四个不同的组:LGM-ODMamba Block主干的消融实验、SEVSS-HSFPN特征金字塔网络的消融实验
VisDrone数据集上的检测结果比较
为了评估模型的直观性能,选择了包含夜间场景、遮挡、密集对象和过度曝光的代表性图像进行测试,实验结果如图18所示。左侧显示原始图像,中间显示YOLOv11的检测结果,右侧显示改进模型的检测结果,其中改进模型的优秀检测结果用红色框标出。
在A组中
算法贡献
在涉及小目标检测的复杂场景中,由于目标尺寸小、遮挡以及受雾天等天气条件的影响,检测难度增加。为了解决这些挑战,我们提出了基于YOLOv11和Mamba的高效目标检测框架LGHVSS-Mamba YOLO。首先,我们设计了一个名为LGM-ODMamba Block的轻量级动态状态空间主干结构:该结构创新性地结合了轻量级动态
作者贡献声明
蒋崇军:概念化、方法论、验证、形式分析、撰写 - 原始草案
张荣芬:撰写 - 审阅与编辑、监督
刘玉红:项目管理
谢远伦:数据管理
徐源:数据管理
李勇:资源
龚彦明:资源