一种基于选择性上下文特征的无人机图像中的实时车辆检测方法
《Engineering Applications of Artificial Intelligence》:A real-time vehicle detection method in unmanned aerial vehicle images with selective contextual features
【字体:
大
中
小
】
时间:2025年11月09日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
针对无人机图像中检测小和遮挡物体的问题,提出基于SFDCFPAN和分离头结构的检测器,提升特征融合与模型分割能力,在VisDrone2019和UAVDT数据集上实现优于现有方法的mAP,并保持实时性。
在无人驾驶飞行器(UAV)图像中检测小型和遮挡目标仍然是一个重要的技术挑战。这类目标往往因图像质量较差,导致特征提取不完整,从而引发漏检现象。为了解决这一问题,本文提出了一种基于ObjectBox的创新检测器,通过引入名为“选择性融合可变形上下文特征路径聚合网络”(Selective Fused Deformable Context Feature Path Aggregation Network, SFDCFPAN)的特征融合模块和“解耦头”结构,以提升检测性能并减少漏检。该方法在两个典型数据集——VisDrone2019和UAVDT的子数据集上进行了测试,实验结果表明其在保持实时性的同时,能够实现较高的检测精度。
近年来,深度学习技术在视觉检测任务中得到了广泛应用,尤其是在交通监控和自动驾驶领域。传统的目标检测算法通常依赖于卷积神经网络(CNN)来提取目标的特征,并利用这些特征进行定位和分类。然而,随着应用场景的扩展,尤其是在UAV图像处理中,小型和遮挡目标的检测难度显著增加。这是因为UAV通常在较高的高度飞行,能够提供更广阔的视野,但也导致图像中出现大量小型目标,同时这些目标可能被建筑物、树木或车辆等结构遮挡。在这种情况下,检测器需要具备更强的特征提取和建模能力,以准确识别目标的位置和类别。
针对这一问题,现有的检测方法主要分为两大类:基于CNN的方法和基于Transformer的方法。基于CNN的方法,如Faster R-CNN,能够有效提取局部特征,并且计算效率较高,但其感受野有限,难以捕捉长距离的上下文信息。相比之下,基于Transformer的方法,如RT-DETRv3和DEIM,能够建模目标之间的长距离依赖关系,但其在检测小型目标时存在不足,因为特征图上的表示较为稀疏,难以获取足够的细节信息。因此,如何在保持实时性能的同时,提升小型和遮挡目标的检测精度,成为当前研究的一个重点方向。
本文提出的检测器结合了CNN和Transformer的优点,采用了一种创新的特征融合架构——SFDCFPAN。该架构的核心在于SFPAN(选择性特征路径聚合网络)和FDC(融合可变形上下文特征提取模块)的结合。SFPAN通过上采样和下采样操作融合多尺度特征信息,同时取消了最大尺度特征层的下采样操作,以减少空间信息的丢失。这一设计使得检测器在处理小型和遮挡目标时能够保留更多的空间细节,从而提升检测能力。FDC模块则通过将提取的特征与原始特征进行逐元素相加,并将这些特征与跳连分支中的特征进行融合,进一步增强了检测器对小型和遮挡目标的空间信息提取能力。
为了进一步提升检测性能,本文还引入了“解耦头”结构。该结构将分类和定位任务分离,以减少两者之间的相互干扰,提高模型的泛化能力和检测效果。通过这种设计,检测器能够在不同的应用场景中保持较高的检测精度,尤其是在处理小型和遮挡目标时表现出色。此外,本文提出的方法在实际应用中具有良好的兼容性和可扩展性,可以无缝集成到现有的检测框架中,如ObjectBox和YOLOv5,从而显著提升这些模型在小型和遮挡目标检测方面的表现。
在实验部分,本文对所提出的检测器在VisDrone2019和UAVDT两个数据集上进行了评估。结果显示,该检测器在VisDrone2019测试集上取得了显著的性能提升,mAP50达到了38.4%,mAP为21.8%,而小型目标的mAP更是达到了13%,相比ObjectBox提升了2.9%。在UAVDT子数据集上,基于YOLOv8的SFDC-YOLOv8模型同样表现出色,其mAP50为41.0%,mAP为23.6%,小型目标的mAP为14.0%,相比YOLOv8提升了3.0%。这些实验结果表明,所提出的检测器在保持实时性的同时,能够有效提升小型和遮挡目标的检测精度。
本文的工作主要集中在两个方面:一是提出了一种新的特征融合架构,即SFDCFPAN,该架构通过结合SFPAN和FDC模块,增强了检测器对小型和遮挡目标的建模和特征提取能力;二是引入了解耦头结构,以减少分类和定位任务之间的相互干扰,从而提高检测器的整体性能。此外,本文还验证了所提出方法在不同检测框架中的适用性,表明其能够灵活地集成到现有的模型中,进一步提升其在复杂场景下的检测能力。
在实验环境方面,本文采用了Stochastic Gradient Descent(SGD)作为优化器,并使用线性学习率策略进行训练。初始学习率设为0.01,动量为0.937,权重衰减为0.0005。训练过程共进行了200个epoch,以确保模型充分收敛。计算硬件为NVIDIA 3060显卡,输入图像的尺寸设置为640 × 640,批量大小为8。图像经过比例缩放、归一化等预处理步骤,以确保训练的稳定性和有效性。
本文的研究成果不仅为UAV图像中的小型和遮挡目标检测提供了新的解决方案,也为其他视觉检测任务提供了有益的参考。所提出的SFDCFPAN架构和解耦头结构,能够在不牺牲实时性的情况下,显著提升检测精度,尤其是在处理复杂场景和高密度目标时表现出色。此外,该方法的灵活性和可扩展性,使其能够应用于多种检测框架,从而推动相关技术的发展和应用。
通过本文的研究,我们发现,传统的检测方法在处理UAV图像中的小型和遮挡目标时存在一定的局限性。例如,基于CNN的方法虽然计算效率高,但其感受野有限,难以捕捉长距离的上下文信息;而基于Transformer的方法虽然能够建模长距离依赖关系,但在小型目标检测上存在不足。因此,结合两种方法的优势,构建一种能够有效融合多尺度特征并保留空间信息的检测器,成为解决这一问题的关键。
本文提出的方法通过引入SFDCFPAN和解耦头结构,有效解决了上述问题。SFDCFPAN通过取消最大尺度特征层的下采样操作,减少了空间信息的丢失,从而提升了检测器对目标位置的建模能力。FDC模块则通过将提取的特征与原始特征进行融合,增强了检测器对目标形状和上下文信息的建模能力。解耦头结构则通过将分类和定位任务分开,减少了两者之间的相互干扰,从而提高了检测器的整体性能。
在实际应用中,UAV图像处理的挑战不仅在于目标的大小和遮挡,还涉及到图像的分辨率和背景的复杂性。因此,检测器需要具备较强的鲁棒性和适应性,以应对不同场景下的检测需求。本文提出的检测器通过引入新的特征融合架构和解耦头结构,显著提升了在复杂背景和高密度目标场景下的检测能力,为实际应用提供了有力的技术支持。
综上所述,本文提出了一种创新的检测器,通过结合SFDCFPAN和解耦头结构,有效提升了UAV图像中小型和遮挡目标的检测精度。实验结果表明,该检测器在保持实时性的同时,能够在多个数据集上取得优异的性能表现。此外,该方法的灵活性和可扩展性,使其能够应用于不同的检测框架,从而推动相关技术的发展和应用。本文的研究成果为未来在UAV图像处理领域中的目标检测任务提供了新的思路和技术手段,具有重要的理论和实践意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号