RTUAV-YOLO:一种用于无人机图像中多尺度目标检测的轻量级网络
《Digital Chinese Medicine》:RTUAV-YOLO: A lightweight network for multiscale object detection in UAV imagery
【字体:
大
中
小
】
时间:2025年11月09日
来源:Digital Chinese Medicine CS1.8
编辑推荐:
多尺度小目标检测在无人机影像中的应用及YOLOv8改进研究。摘要:针对无人机影像中小目标检测的挑战,提出RTUAV-YOLO模型改进YOLOv8的头部、颈部和背部结构。头部采用小目标检测优化,颈部引入双向特征融合的E-RepGFPN模块,背部通过PTA-FEM和ADown提升多尺度特征提取能力,并添加CGPGI辅助可逆分支增强语义传播。实验表明,模型在VisDrone-DET2019和BDD100K上mAP@0.5提升5.3%,参数减少64%,在Jetson Xavier NX上实现35FPS的FP16量化性能,有效平衡嵌入式场景的精度与效率。
在无人机(Unmanned Aerial Vehicle, UAV)图像处理领域,物体检测是一项具有挑战性的任务,尤其是在需要识别不同尺度目标的情况下。随着无人机技术的广泛应用,如城市监控、农业测绘、灾害救援等,对图像中物体的精准识别需求日益增长。然而,传统的检测方法在面对这些应用场景时常常面临性能瓶颈,主要体现在如何在保持高检测精度的同时,提高模型的运行效率,并降低计算负担。为了应对这一挑战,研究者们不断探索新的模型架构与优化策略,以满足实际应用中的多样化需求。
本文提出了一种名为 RTUAV-YOLO 的改进型检测模型,该模型基于 YOLOv8 基线模型,并在多个关键模块上进行了优化,包括检测头、特征融合网络(neck)和主干网络(backbone)。这些改进旨在提升模型在小目标检测中的表现,同时增强其在多尺度目标识别中的能力,并确保其能够在嵌入式设备上高效运行。本文的实验结果表明,RTUAV-YOLO 在保持高精度的同时,显著提升了模型的运行速度,并减少了参数数量,从而更适合部署在资源受限的设备上。
### 小目标检测的挑战
在无人机图像中,小目标检测是一个关键难题。由于无人机通常处于高空,拍摄角度决定了图像中目标的大小分布。靠近镜头的目标可能较大,而远离镜头的目标则较小,甚至在某些图像中,同一画面中的目标大小可能相差十倍以上。此外,无人机图像往往包含大量小目标,这些目标的尺寸通常小于 32×32 像素,因此在特征提取过程中,其可区分的特征较少,使得检测难度加大。同时,密集的目标分布和相互遮挡现象也进一步影响了检测性能。背景中的障碍物可能会遮挡住远处的小目标,导致特征信息的丢失,从而降低模型的召回率(Recall)。
为了解决这些问题,研究者们提出了多种方法。例如,通过多尺度特征表示,可以增强模型对不同尺寸目标的识别能力;利用上下文信息有助于提高模型对小目标的判别能力;改进损失函数可以更好地引导模型学习小目标的特征;数据增强技术可以增加训练数据的多样性,提升模型的泛化能力;优化锚框机制则有助于提高模型对小目标的定位精度。这些方法在一定程度上提升了小目标检测的性能,但仍然存在计算效率和模型复杂度之间的权衡问题。
### RTUAV-YOLO 的设计思路
为了提升小目标检测的性能,同时确保模型在嵌入式设备上的高效运行,本文提出了一种名为 RTUAV-YOLO 的改进型检测模型。该模型基于 YOLOv8,对检测头、特征融合网络和主干网络进行了优化,以提升模型在不同尺度目标检测中的表现。
在检测头部分,我们采用了优化后的“小目标检测头”,以提升模型对小目标的识别能力。相比传统的“大目标检测头”,新的检测头能够在不增加过多计算负担的情况下,提高小目标的检测精度。这一改进使得模型在处理小目标时更加高效,同时也减少了不必要的计算冗余。
在特征融合网络部分,我们引入了“增强重参数化通用特征金字塔网络”(Enhanced Reparametrized Generalized Feature Pyramid Network, E-RepGFPN)。该网络通过双向特征融合机制,实现了深层语义信息与浅层空间信息的高效交换。这一设计有助于提升模型在不同尺度目标识别中的表现,同时优化了特征空间的结构,使得模型能够更好地捕捉多尺度目标的特征。此外,我们还采用了“多分支聚合模块”(Multi-Branch Aggregation Module, MBAM)和“Ghost 卷积”(GhostConv)来进一步丰富特征空间,并通过改进的“Queen-Fusion”技术减少模型参数数量,从而提升模型的运行效率。
在主干网络部分,我们提出了“部分卷积与三元注意力特征提取模块”(Partial Convolution and Triplet Attention-based Feature Extraction Module, PTA-FEM)。该模块通过部分卷积技术,使得模型能够在不损失关键特征的情况下,从更粗粒度的特征图中提取空间信息。此外,我们还引入了“自适应下采样”(Adaptive Downsampling, ADown)技术,以在下采样过程中保留丰富的语义信息。这些改进使得主干网络能够更高效地提取多尺度目标的特征,同时降低了模型的计算成本。
### 辅助可逆分支的设计
为了进一步提升模型的性能,我们还引入了一个基于“上下文引导可编程梯度信息”(Context-guided Programmable Gradient Information, CGPGI)的辅助可逆分支。该模块通过在不同语义层次上传播梯度信息,防止了语义信息的丢失。同时,我们还采用了“上下文引导下采样”(Context Guided Down, CGDown)技术,以增强多尺度特征表示。这些辅助模块的引入使得模型在处理复杂场景时更加稳健,提升了检测的准确性和鲁棒性。
### 实验与结果
为了验证 RTUAV-YOLO 的有效性,我们进行了广泛的实验,包括对比实验、消融实验和泛化实验。实验数据集包括 VisDrone-DET2019 和 BDD100K,这两个数据集广泛用于无人机图像检测任务。实验结果表明,RTUAV-YOAV-YOLO 在保持高检测精度的同时,显著提升了模型的运行效率,并减少了参数数量。相比 YOLOv8s 基线模型,RTUAV-YOLO-s 在 mAP@0.5 和 mAP@0.5:0.95 指标上分别提升了 5.3% 和 3.3%。此外,经过 FP16 量化处理后,RTUAV-YOLO 在 NVIDIA Jetson Xavier NX 平台上实现了最高的 mAP,同时运行速度达到 35 FPS,优于其他模型。
### 可解释性分析
为了进一步理解 RTUAV-YOLO 的决策过程,我们采用了“高分辨率类激活映射”(High-Resolution Class Activation Mapping, HiResCAM)技术,以生成类激活图,从而提供对模型决策过程的可视化解释。HiResCAM 能够突出显示对提升类别置信度有贡献的图像区域。通过对比 YOLOv8s 和 RTUAV-YOLO-s 的 HiResCAM 结果,我们可以看到 RTUAV-YOLO-s 的激活区域更加集中,特别是在目标的中心部分,这表明模型在识别小目标时更加精准,同时能够更好地捕捉目标的关键特征。
### 未来方向
尽管 RTUAV-YOLO 在多尺度目标检测方面取得了显著成果,但仍然存在一些可以进一步优化的方向。例如,可以探索更高效的特征融合策略,以提升模型在复杂场景下的表现;还可以研究更轻量化的主干网络结构,以适应更多嵌入式设备的需求;此外,进一步优化辅助可逆分支的设计,以提升模型的鲁棒性和泛化能力。未来的研究可以结合更多的实际应用场景,探索 RTUAV-YOLO 在不同环境下的适应性,并进一步提升其在资源受限设备上的运行效率。
### 相关工作综述
在多尺度目标检测领域,已有许多研究工作。例如,基于多尺度特征表示的方法,如 SSD 系列、CenterNet 和 DETR 系列,都尝试通过不同层次的特征提取来提升模型的检测性能。然而,这些方法在面对无人机图像中的多尺度目标时,往往存在计算效率和检测精度之间的权衡问题。此外,轻量化的特征提取方法,如 Ghost 卷积和三元注意力机制,也受到了广泛关注。这些方法能够在不牺牲太多检测精度的情况下,显著降低模型的计算负担,从而更适合部署在嵌入式设备上。
在特征融合方面,许多研究尝试通过多分支特征聚合机制来提升模型的多尺度识别能力。例如,一些方法引入了双向特征融合网络,以更高效地交换深层语义信息与浅层空间信息。这些方法在一定程度上提升了模型的性能,但在实际应用中仍然存在一些挑战,如如何在保持高效的同时,进一步提升模型的检测精度。此外,还有一些研究尝试通过可逆的特征融合策略,以增强模型的鲁棒性和泛化能力。这些方法在一定程度上提升了模型的性能,但在实际应用中仍然存在一些局限性。
在嵌入式设备上的部署,一直是研究的重点之一。由于嵌入式设备的计算资源有限,因此需要设计更轻量化的模型架构,以适应这些设备的运行需求。例如,一些研究尝试通过模型压缩技术,如量化、剪枝和知识蒸馏,来减少模型的计算负担。这些方法在一定程度上提升了模型的运行效率,但在实际应用中仍然存在一些挑战,如如何在保持高检测精度的同时,进一步降低模型的计算成本。此外,还有一些研究尝试通过优化模型结构,如使用更高效的卷积操作和更轻量的注意力机制,来提升模型在嵌入式设备上的运行效率。
### 结论
本文针对无人机图像中的多尺度目标检测问题,提出了一种改进型检测模型 RTUAV-YOLO。该模型基于 YOLOv8,通过优化检测头、特征融合网络和主干网络,提升了模型在不同尺度目标检测中的表现。实验结果表明,RTUAV-YOLO 在保持高检测精度的同时,显著提升了模型的运行效率,并减少了参数数量。此外,经过 FP16 量化处理后,该模型在嵌入式设备上的表现尤为突出,能够以更高的速度运行,同时保持较高的检测精度。这些改进使得 RTUAV-YOLO 适合部署在资源受限的设备上,如 NVIDIA Jetson Xavier NX,从而为无人机图像检测提供了更高效、更精准的解决方案。未来的研究可以进一步探索 RTUAV-YOLO 在不同环境下的适应性,并优化其在嵌入式设备上的运行效率,以满足更多实际应用的需求。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号