综述:微小物体检测:技术、挑战与未来方向的深入研究

《Digital Signal Processing》:Tiny Object Detection: An In-Depth Survey of Techniques, Challenges, and Future Directions

【字体: 时间:2026年02月14日 来源:Digital Signal Processing 3

编辑推荐:

  本文系统综述了微小物体检测领域的研究进展,涵盖挑战、方法(训练策略、GAN、区域提案等)、评估指标(准确率、mAP)及多个数据集(AI-TOD、WiderFace等)。重点分析了Transformer模型在微小物体检测中的应用,并总结了九类核心检测技术,提出了未来研究方向。

  
Rakhi Nautiyal|Maroti Deshmukh
印度北阿坎德邦斯利那加尔(加尔瓦尔)国立技术学院计算机科学与工程系

摘要

在计算机视觉领域,检测微小物体面临诸多挑战。这项任务涉及在图像中识别属于多个预定义类别的微小物体。我们的研究全面概述了微小物体识别领域的最新进展,强调了当前方法所面临的挑战以及未来研究的潜在方向。我们的目标是提供关于各种应用领域中微小物体检测最新发展的详细总结。我们通过使用准确性、精确度和平均精度(mAP)等指标来评估现有检测技术的性能,并对其进行了分析和比较。为此评估使用了多个专门为微小物体设计的数据集,包括AI-TOD、WiderFace、City Person、Visdrone2019、MS-COCO和PASCAL-VOC。我们的调查涵盖了多个研究工作,这些工作涉及微小物体检测的不同方面,包括训练方法、基于GAN的技术、区域提案、超分辨率方法、基于上下文的检测、多尺度特征学习、锚点机制、损失函数方案和数据增强策略。

引言

物体检测是计算机视觉中的一个关键任务,用于在数字图像中检测特定类别或类型的视觉物体(如行人、动物、车辆、建筑物等)[1]、[2]、[3]、[4]。物体检测是指确定输入图像中是否存在特定物体的过程。物体检测有两个子类别:物体定位和物体识别。物体定位是指确定图像中物体的位置,如图1所示。物体定位使用边界框精确地绘制出识别出的物体边界。物体识别则关注图像中物体的类别。物体检测在许多领域中起着重要作用,是物体跟踪、实例分割和图像字幕等任务的基石[5]。物体检测在许多领域都有应用,包括自动驾驶、面部和模式识别、医学成像以及遥感目标识别。在许多情况下,物体检测非常重要,例如定位具有清晰边界框的物体以及检测高速移动的物体。
通用物体检测和领域特定检测是物体检测的两个基本子类别。物体检测的框图如图2所示。通用物体检测的重点是在定义的框架内检测物体。其范围不仅限于识别图像中的特定物体,还包括在单个图像中检测不同大小的物体(大、中、微小)。通用物体检测的目标是对图像中的所有物体进行分类和识别。之后,这些物体会被赋予带有矩形边界框的标签,从而提供关于每个特定物体存在的置信度。有多种通用物体检测模型可供实施,如图3所示。通用物体检测方法的结构主要分为两种基本类型:一种采用传统的物体检测流程,从生成区域提案开始,然后将每个提案分类到特定的物体类别;另一种策略将物体检测视为回归或分类问题,通过统一的框架直接获得所需的结果(位置和类别),称为基于深度学习的策略。此外,一阶段和两阶段检测器也是通用物体检测的两个子类别。两阶段检测器通常更精确,而一阶段检测器则节省时间。领域特定检测则专注于特定应用中的物体检测。物体检测模型的评估围绕两个关键指标进行:准确性和精确度,这两个指标都非常重要。首先,准确性表示模型正确分类物体的能力及其精确定位的精确度;分类准确性表示模型为检测到的物体分配正确类别标签的熟练程度;定位准确性则评估模型指示识别出的物体空间边界的精确度。
微小物体检测(TOD)涉及在图像中定位和识别非常小的物体。“微小物体”通常指的是尺寸或维度较小的物体。与整个图像相比,微小物体的比例通常很小。微小物体的定义有两个方面:第一种是物体占据的面积小于或等于32×32像素;第二种是在实际世界中物理尺寸较小的物体。例如,在USC-GRAD-STDdb数据集中,一个微小物体的大小为16×16像素[6],不到整个图像面积的1%,不到原始图像大小的0.12%[7]。根据应用或数据集的不同,微小物体的定义也可能有所不同。图4中的图像来自一个开放式的微小物体图像数据集,在该图像中识别出了10个物体,其中玻璃杯、鼠标和瓶子是微小物体;其余的碗、锅、罐子和笔记本电脑是中等大小的物体,而桌子和椅子是大尺寸物体。第二张图像来自ETH数据集,包含微小行人的图像;第三张图像来自AI-TOD数据集,其中包含作为车辆的微小物体。
图像中存在大、中、微小三种大小的物体。虽然中等和大型物体的检测性能很好,但由于图像中存在大型物体、背景复杂、分辨率低以及缺乏上下文信息,微小物体的检测性能会受到影响(如第5.1节所讨论)。近年来,关于物体检测的研究非常多,因为最近的研究表明检测微小物体具有挑战性和高要求。本研究回顾了近年来关于微小物体检测的文献、技术和挑战。
最近发表了许多关于物体检测的调查报告。然而,这些调查主要集中在对图像中一般大小物体的系统回顾上,并没有专门讨论微小物体检测的挑战、技术、模型、相关应用领域的最新文献、性能指标以及未来发展方向。近年来关于微小物体检测的调查报告数量有限,具体总结见表1。该表详细分析了现有的调查报告,强调了它们的主要贡献并指出了其中的局限性,同时也总结了研究空白。
我们的调查提供了关于微小物体检测(TOD)的全面、最新的概述,并指出了重要的研究空白。它详细分析了18个专门用于TOD的数据集的特征和描述。此外,我们回顾了2025年的90项最新研究,涵盖了各种应用领域、检测方法和专门用于TOD的数据集。我们还重点讨论了应用于TOD的基于Transformer的物体检测器。为了更好地理解,我们对最近研究中支持的9种重要的微小物体检测技术进行了分类和描述。这有助于研究人员确定未来TOD研究的相关方向。我们从深度学习的角度分析了单阶段和两阶段检测器,讨论了它们的性能、架构细节及其与TOD的相关性。我们还提供了用于微小物体检测的流行骨干网络的比较研究。此外,我们的调查还包括了对专门用于评估TOD的性能指标的详细回顾,解释了这些指标的计算方法。本文广泛涵盖了不同应用场景下的方法论,包括相关数据集。
通过强调当前面临的挑战(如分辨率问题、有限的上下文信息、小物体尺寸、噪声、弱训练、环境复杂性、类别不平衡、遮挡和注释限制),并讨论潜在的解决方案,我们为未来的研究指明了明确的方向。最后,我们的调查总结了最近的进展,解决了关键空白,并为微小物体检测(TOD)领域的综合研究提供了详细的参考。
本文全面总结了物体检测领域的最新技术,重点关注微小物体的检测方法。这项调查旨在为学者提供有用的见解,通过总结各种方法帮助他们更好地理解识别微小物体的难度,并鼓励检测系统的新发展。我们总结调查的范围如下:
  • 我们的调查专门关注微小物体检测。
  • 本综述涵盖了涉及各种应用领域中微小物体检测的文献,并提供了不同数据集上的性能指标。我们回顾了超过90项最新研究,详细介绍了所使用的方法和数据集。我们还研究了专为微小物体检测设计的基于Transformer的模型。
  • 讨论了几个用于微小物体检测的基准数据集,如表2所示。
  • 我们提供了微小物体检测基准测试中常用的性能指标的分析和总结。
  • 我们包含了微小物体检测框架中的先进技术,包括两阶段和一阶段方法,如表5和表6所示。
  • 我们基于九个不同的视角总结了微小物体检测技术。
  • 识别出的微小物体检测挑战及可能的解决方案
  • 微小物体检测领域的未来研究方向。
  • 本文的后续部分安排如下:第2节包括微小物体检测的数据集和指标;第3节描述了九个基准测试中的微小物体检测技术,以及深度学习中一阶段和两阶段检测器的先进技术;第4节介绍了关于微小物体的现有文献和对知名数据集中各种性能指标的比较分析;第5节讨论了微小物体检测的局限性和未来发展方向;最后,第6节对全文进行了总结。

    节选

    微小物体检测的数据集和指标

    数据集在物体检测中起着关键作用。数据集是一组为特定目的而整理和准备的相关观测值集合。虽然有许多公开可用的数据集,但只有少数数据集被广泛用于小型、中型和大型物体的识别,例如PASCAL-VOC [18]、IMAGE NET [19]、MS-COCO [20]、开放图像[21]等。通过对文献的全面调查可以看出,许多数据集多年来一直保持其受欢迎程度

    微小物体检测技术

    深度学习常用于许多计算机视觉应用中。物体识别(如识别书籍、猫、动物和人)是一个重要的应用。每个物体都必须被赋予一个边界框和类别才能完成这一过程。物体检测分为两个主要子类别:传统方法和基于深度学习的方法。区域选择、特征提取和分类是传统方法的三个主要阶段

    微小物体检测的文献分析

    近年来,关于微小物体检测的论文数量显著增加,这些研究使用了各种应用领域的数据集。此外,我们还提供了该领域相关文献的全面总结。

    局限性和未来展望

    在图像中检测微小物体从来都不是一件容易的事。在这篇调查报告中,我们讨论了识别微小物体面临的四个主要障碍。由于像素尺寸小,在图像中定位微小物体具有挑战性,因为当我们增加CNN模型的层数时,微小物体或低级特征可能不可见。为了解决这个问题,必须结合来自浅层和深层的特征。由于分辨率低,微小物体本身包含的信息较少

    结论

    这篇综述文章深入分析了与微小物体检测相关的各个应用领域的文献。它概述了九种不同的微小物体检测技术,展示了该领域研究人员可用的多种方法。该调查还评估了最先进算法的最新进展,重点关注一阶段和两阶段方法及其相应的骨干网络。

    利益冲突声明

    1. 所有作者都参与了(a)概念设计和数据分析;(b)文章的起草或对重要内容的批判性修订;(c)最终版本的批准。2. 本手稿尚未提交给其他期刊或其他出版机构进行审稿。3. 作者与手稿中讨论的主题没有任何直接或间接的经济利益关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号