HF-D-FINE:一种高分辨率增强型D-FINE算法,专为无人机图像中的微小物体检测而设计
《Image and Vision Computing》:HF-D-FINE: High-resolution features enhanced D-FINE for tiny object detection in UAV image
【字体:
大
中
小
】
时间:2025年11月21日
来源:Image and Vision Computing 4.2
编辑推荐:
实时检测无人机影像中的微小物体面临高精度与计算效率的平衡难题,本文提出HF-D-FINE架构,通过HF混合编码器选择性注入高分辨率特征,CAF模块动态融合多尺度语义与空间细节,以及Outer-SNWD损失函数结合形状IoU与NWD优化回归,在VisDrone等数据集上实现AP提升3.2%且计算开销极低。
在无人机图像中的实时目标检测仍然是一项极具挑战性的任务,主要源于高检测性能与严格计算效率之间的固有矛盾。为了解决这一难题,本文提出了一种名为 HF-D-FINE 的新型目标检测框架,该框架基于 D-FINE 架构,并包含三项有效的创新。通过引入 HF 混合编码器、CAF 模块以及 Outer-SNWD 损失函数,HF-D-FINE 在提升小目标检测精度的同时,有效控制了计算开销。本文在广泛使用的无人机图像基准数据集 VisDrone、AI-TOD 和 UAVDT 上进行了大量实验,结果表明 HF-D-FINE 在保持较低 FLOPs 的前提下,实现了优于 D-FINE 的检测精度,特别是在 VisDrone 数据集上,其 AP 值相比 D-FINE-S 提高了 3.2%,AP50 值提高了 4.3%,充分验证了其在无人机图像小目标检测中的有效性和优越性。
实时目标检测是计算机视觉领域的核心任务之一,旨在快速识别和定位图像中的目标。近年来,随着深度学习的迅速发展和计算能力的持续提升,该领域取得了显著进展。无人机搭载的目标检测技术为实时地面感知和识别提供了独特的视角,弥补了固定监控系统在视野范围上的局限性,以及人工检查在效率上的不足。因此,该技术已被广泛应用于交通控制、应急响应和环境巡逻等领域。然而,无人机图像中的小目标检测仍然面临诸多挑战。由于飞行高度较高,目标往往仅占据少量像素,导致细节纹理极其稀少,同时信号与噪声的比率急剧下降,使得深度网络难以提取具有区分性的特征。此外,无人机图像中目标整体较为稀疏,背景占据大部分画面,而在局部密集区域,目标密度迅速上升,目标之间容易发生遮挡或重叠,进一步增加了检测难度。同时,对功耗和延迟的严格限制,使得无法提升输入分辨率或模型容量,因此在准确性和计算之间的平衡变得尤为关键。克服这些挑战并开发一种适用于无人机图像的高性能实时检测器是至关重要的。
近年来,基于 DETR 的检测器逐渐成为目标检测的主流范式。与依赖密集锚框和局部感受野的 YOLO 系列不同,DETR 模型通过全局自注意力机制建立特征图中的长距离依赖关系,从而缓解下采样带来的空间细节损失。此外,DETR 的集合预测框架消除了对人工设计的非极大值抑制(NMS)的依赖,有效抑制了密集场景中的冗余框,提高了小目标的召回一致性。因此,实时 DETR 检测器通常在无人机图像上表现优于 YOLO 系列模型。
如图 1 所示,尽管 D-FINE 是一种实时 DETR 基础的检测器,在无人机图像检测中表现出了良好的性能,但仍然存在大量漏检的情况,揭示了其在三个方面存在不足。首先,其特征编码器未能充分利用高分辨率的特征,导致在下采样过程中过度压缩细节,影响了小目标特征的提取。其次,融合模块缺乏自适应的跨尺度调整能力,无法动态强调密集排列的小目标,限制了模型的效率和准确性。第三,原始损失函数忽略了形状和尺度的一致性,导致小目标的回归精度不足。虽然提高输入分辨率在直观上有助于提升小目标检测效果,但这种方法会带来计算成本的指数级增长,对于资源受限的平台来说并不现实。为了解决这一矛盾,本文提出了 HF-D-FINE 及其高计算量变体 HF-D-FINE-H,这些模型不通过增加输入分辨率来提升性能,而是通过从特征金字塔中注入高分辨率特征到颈部结构,从而增强小目标的表示,同时避免了计算开销的增加。如图 2 所示,我们的模型在相似的计算成本下取得了领先的表现。
本文提出的 HF 混合编码器是对传统混合编码器的精细重构,其核心在于选择性地整合来自主干网络特征金字塔的高分辨率特征,从而增强小目标的细节表示,同时通过通道压缩来减少网络冗余。这一设计在不增加输入分辨率的前提下,实现了显著的检测精度提升。在此基础上,我们引入了 CAF 模块,该模块通过跨尺度通道注意力机制,自适应地强调关键的特征维度,并在上采样过程中使用可学习的位置偏移,动态引导采样核聚焦于小目标密集的区域。这样,高分辨率的空间细节能够与语义信息无缝融合,从而捕捉到多尺度的目标表示。此外,我们提出了 Outer-SNWD 损失函数,该函数专门针对小目标检测设计。为了解决相同空间偏移下因形状变化导致的 IoU 不一致性问题,以及缓解小目标的 IoU 对定位误差的过度敏感性,我们结合了 Shape-IoU 和 NWD 的优势,并引入了长宽比一致性惩罚项,以强制预测框与真实框之间的形状一致性。同时,为了解决小目标检测中常见的初始 IoU 偏低和回归困难的问题,我们引入了辅助框,以扩展小目标的有效回归范围。
为了全面评估 HF-D-FINE 在无人机图像中进行小目标检测的能力,本文在三个具有代表性和广泛采用的无人机图像基准数据集 VisDrone、AI-TOD 和 UAVDT 上进行了详尽的定量评估。如图 8 所示,这些数据集主要由小目标和中等规模目标组成,大目标较为稀少,从而对模型的细节提取能力提出了更高的要求。VisDrone 包含 6471 个训练样本,涵盖了多种场景和目标类型,为模型的训练和评估提供了丰富的数据支持。AI-TOD 与 UAVDT 同样包含了大量小目标的图像,为验证模型在不同数据集上的泛化能力提供了良好的条件。
在方法部分,本文详细介绍了 HF-D-FINE 的架构设计,包括其核心组件:HF 混合编码器、CAF 模块和 Outer-SNWD 损失项。HF 混合编码器通过对主干网络特征金字塔中高分辨率特征的有选择性注入,增强了小目标的细节表示,同时通过通道压缩减少了网络冗余。这种设计不仅在不增加输入分辨率的情况下提升了检测精度,还有效控制了计算开销。CAF 模块则通过跨尺度通道注意力机制,自适应地强调关键的特征维度,并在上采样过程中引入可学习的位置偏移,以动态引导采样核关注小目标密集的区域。通过这种方式,高分辨率的空间细节能够与语义信息有效结合,从而实现精确的多尺度目标表示。Outer-SNWD 损失函数则专门针对小目标检测中的形状和尺度一致性问题进行了优化。通过结合 Shape-IoU 和 NWD 的优势,并引入长宽比一致性惩罚项,该损失函数能够有效抑制因形状变化导致的 IoU 偏差,同时解决小目标检测中常见的初始 IoU 偏低和回归困难的问题。此外,通过引入辅助框,该损失函数进一步扩展了小目标的有效回归范围,提升了检测的鲁棒性。
在实验部分,本文在三个无人机图像数据集上进行了广泛的实验,并对结果进行了深入分析。实验结果表明,HF-D-FINE 在保持较低参数和 FLOPs 的前提下,显著优于基线模型 D-FINE,并在与其他竞争模型的对比中表现出色。尤其是在 VisDrone 数据集上,HF-D-FINE 的检测精度得到了显著提升,验证了其在无人机图像小目标检测中的有效性。此外,AI-TOD 和 UAVDT 的实验结果也表明,HF-D-FINE 在不同场景和目标类型下均表现出良好的性能,进一步证明了其泛化能力。这些实验不仅展示了 HF-D-FINE 在检测精度上的优势,还验证了其在计算效率上的高效性。
在结论部分,本文总结了 HF-D-FINE 在无人机图像小目标检测中的应用与优势。通过引入三项创新技术,HF-D-FINE 在提升检测精度的同时,有效控制了计算开销。特别是在实际应用中,HF-D-FINE 通过在不增加输入分辨率的情况下注入高分辨率特征,使得模型能够在资源受限的平台上实现高性能的实时检测。此外,通过优化损失函数和融合模块,HF-D-FINE 在复杂场景下表现出了更强的鲁棒性和准确性。这些技术的结合不仅提升了小目标检测的性能,还为未来无人机图像检测的研究提供了新的思路和方向。
在本文的研究过程中,我们还对现有的目标检测方法进行了系统性的回顾,重点分析了实时和小目标检测领域的最新进展。当前,基于深度学习的目标检测方法主要分为 CNN 和 Transformer 两类。CNN 方法进一步细分为单阶段和双阶段方法。单阶段检测器将目标检测任务视为回归问题,直接从特征图中预测边界框和类别概率,因此更容易部署,具有更优的实时性能和更快的推理速度。双阶段检测器则通常包含区域建议生成和特征提取两个步骤,虽然在精度上可能有所优势,但在实时性方面相对较弱。近年来,基于 Transformer 的 DETR 检测器因其全局自注意力机制和集合预测框架,在目标检测领域取得了显著进展。DETR 模型能够建立特征图中的长距离依赖关系,从而缓解下采样带来的空间细节损失,同时避免了对人工设计的非极大值抑制(NMS)的依赖,提高了小目标的召回一致性。因此,实时 DETR 检测器在无人机图像中表现优于传统的 YOLO 系列模型。
本文提出的 HF-D-FINE 在继承 D-FINE 架构的基础上,通过三项关键创新技术显著提升了小目标检测的性能。首先,HF 混合编码器通过对主干网络特征金字塔中高分辨率特征的有选择性注入,增强了小目标的细节表示,同时通过通道压缩减少了网络冗余。这种设计在不增加输入分辨率的情况下,实现了显著的检测精度提升。其次,CAF 模块通过跨尺度通道注意力机制,自适应地强调关键的特征维度,并在上采样过程中引入可学习的位置偏移,以动态引导采样核关注小目标密集的区域。通过这种方式,高分辨率的空间细节能够与语义信息有效结合,从而实现精确的多尺度目标表示。第三,Outer-SNWD 损失函数通过结合 Shape-IoU 和 NWD 的优势,并引入长宽比一致性惩罚项,有效抑制了因形状变化导致的 IoU 偏差,同时解决了小目标检测中常见的初始 IoU 偏低和回归困难的问题。此外,通过引入辅助框,该损失函数进一步扩展了小目标的有效回归范围,提升了检测的鲁棒性。
在实验验证方面,本文在三个无人机图像数据集上进行了广泛的测试,包括 VisDrone、AI-TOD 和 UAVDT。实验结果表明,HF-D-FINE 在保持较低参数和 FLOPs 的前提下,显著优于基线模型 D-FINE,并在与其他竞争模型的对比中表现出色。尤其是在 VisDrone 数据集上,HF-D-FINE 的 AP 值相比 D-FINE-S 提高了 3.2%,AP50 值提高了 4.3%,充分验证了其在无人机图像小目标检测中的有效性。此外,AI-TOD 和 UAVDT 的实验结果也表明,HF-D-FINE 在不同场景和目标类型下均表现出良好的性能,进一步证明了其泛化能力。这些实验不仅展示了 HF-D-FINE 在检测精度上的优势,还验证了其在计算效率上的高效性。
本文的研究成果表明,通过引入 HF 混合编码器、CAF 模块和 Outer-SNWD 损失函数,HF-D-FINE 在提升小目标检测性能的同时,有效控制了计算开销。这种设计不仅适用于无人机图像的实时检测,也为其他场景下的小目标检测提供了有益的参考。未来的研究可以进一步探索如何在不同类型的图像数据中优化这些技术,以提升模型的泛化能力和检测精度。此外,还可以结合其他先进的检测方法,如基于注意力机制的模型,进一步提升小目标检测的性能。总之,HF-D-FINE 的提出为无人机图像中的小目标检测提供了一种新的解决方案,具有重要的应用价值和研究意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号