编辑推荐:
在计算机视觉领域,小目标检测面临诸多难题,如信息不足、场景复杂等。研究人员基于 RT-DETR-r18 开展 MI-DETR 模型研究。实验表明,该模型参数更少、检测精度更高、延迟更低,对提升小目标检测能力意义重大。
在计算机视觉的广阔天地里,小目标检测就像一场艰难的冒险。想象一下,在复杂的城市街道场景中,要精准识别远处微小的交通标识;或者在卫星遥感图像里,找出那些面积不大的特定建筑,这可不是一件容易的事。小目标尺寸小,携带的特征信息少,很容易被复杂的背景干扰,还可能被其他物体遮挡。现有的深度学习目标检测模型,像两阶段模型虽然检测精度高,但速度慢,不适合实时应用;单阶段模型速度快,可在小目标检测上又表现欠佳;基于 Transformer 的检测器能处理全局特征,却面临计算复杂、训练时间长的问题。即使是结合了 CNNs 与 Transformer 的 RT-DETR,在检测小目标时也存在不足,因为小目标在其较大的下采样过程中容易丢失关键信息。为了攻克这些难题,让小目标检测变得更加高效精准,重庆理工大学等机构的研究人员展开了深入研究,他们的成果发表在《Displays》上,为该领域带来了新的希望。
研究人员提出了一种面向混合场景的小目标检测模型(MI-DETR)。在这项研究中,研究人员用到了几个关键技术方法。首先,对骨干网络进行创新,运用快速傅里叶变换(FFT)、分组卷积、通道洗牌(Channel Shuffle)和正交通道注意力机制,提升早期网络对全局特征的提取能力,同时减少参数数量和计算量。其次,引入小目标特征层和多尺度特征融合(MSFF)模块,强化特征融合。最后,提出 Focaler-WIoU 损失函数,提高小目标检测的精度。研究人员使用 SEU-PML、VisDrone2019 和 AI-TOD 数据集进行实验,在 RTX 4070 Ti GPU 上,利用 AdamW 优化器和余弦学习率调度器,将图像调整为 640×640 像素,训练 100 个 epoch。
研究结果
- 骨干网络创新提升性能:通过 FFT、分组卷积和通道洗牌等技术改进骨干网络,减少了模型参数数量和计算量,增强了对小目标特征的提取能力。这使得模型在早期就能更好地捕捉全局特征,为后续精准检测小目标奠定了基础。
- MSFF 模块增强特征融合:运用 MSFF 方法,在特征融合阶段减少了小目标信息的丢失,有效提升了检测性能。该模块让模型能够更充分地整合不同尺度的特征,使小目标的特征更加突出,从而提高检测的准确性。
- Focaler-WIoU 损失函数提高检测精度:采用 Focaler-WIoU 损失函数,优先关注高质量的锚框,进一步增强了小目标检测的精度。这一损失函数的设计,使得模型在训练过程中更聚焦于小目标,减少了漏检和误检的情况。
- 综合性能优势显著:在三个复杂场景的小目标检测数据集上进行实验,MI-DETR 模型相较于之前的模型,参数减少了 40%,计算量降低了 5%。在这三个数据集上,模型的准确率分别达到 70.2%、34.5% 和 34.1%,小目标检测准确率分别为 19.8%、11.5% 和 12.6%,延迟也分别降低了 0.9ms、1.0ms 和 1.1ms,性能优于其他类似规模的实时检测模型。
研究结论与讨论
MI-DETR 模型成功解决了混合场景中小目标检测面临的诸多难题。它在提升检测精度的同时,降低了模型的复杂度,减少了计算量和延迟,这对于需要实时处理的应用场景,如自动驾驶、实时监控等,具有重要意义。该模型不仅在理论上取得了突破,在实际应用中也展现出了巨大的潜力。它为后续小目标检测的研究提供了新的思路和方法,推动了计算机视觉领域在小目标检测方向的发展。未来,研究人员可以在此基础上进一步优化模型,探索更多提升小目标检测性能的方法,使其在更广泛的领域发挥更大的作用。