《Computer Vision and Image Understanding》:A Survey on class-agnostic counting: Advancements from reference-based to open-world text-guided approaches
编辑推荐:
这篇综述聚焦于计算机视觉领域中的一个前沿且极具应用价值的课题——类别无关物体计数(CAC)。传统物体计数方法通常针对特定类别(如人群、车辆),需要大量标注数据进行训练,难以泛化到未见过的类别。为解决这一局限性,CAC旨在开发能够计数任意类别物体的模型,只需极少数(few-shot)甚至无需(zero-shot)目标类别的视觉示例,或仅凭文本描述即可工作。本文首次对CAC方法进行了系统性综述,提出了一个清晰的分类体系,将现有方法归纳为基于参考、无参考和开放世界文本引导三大范式,系统梳理了30种代表性架构,并在FSC-147、CARPK等基准数据集上比较了它们的性能。文章不仅总结了该领域的里程碑式进展,还深入讨论了持续的挑战(如标注依赖性和泛化能力)与未来方向,为研究人员理解CAC的演进路径和把握未来发展趋势提供了宝贵的参考资源。
想象一下,你面对一张充满各种物品的图片,被要求数出其中某一类物品的数量,比如“桌子上的苹果”或者“货架上的罐头”。对人类来说,这可能轻而易举。然而,对于大多数现有的人工智能系统而言,这却是一个棘手的难题。传统的计算机视觉计数模型,如专门用于人群或车辆计数的系统,通常需要针对特定物体类别进行大量标注数据的训练。一旦遇到训练集中未曾出现过的物体类别,这些模型往往就束手无策了。这种“类别特定”的限制,严重阻碍了AI系统在现实世界中的灵活应用。例如,在农业中想要快速统计特定害虫的数量,在零售业中盘点新上架的商品,或在生物医学图像中计数某种罕见的细胞,为每个新类别都收集并标注海量数据既不现实也不高效。人们不禁要问:能否开发出一种像人类一样,无需预先学习特定类别知识,就能根据少数示例甚至文字描述来计数任意物体的智能系统?
为了回答这个问题,计算机视觉领域的研究正朝着“类别无关计数”的新范式演进。近期发表在《Computer Vision and Image Understanding》上的一篇题为《A Survey on class-agnostic counting: Advancements from reference-based to open-world text-guided approaches》的综述文章,首次对这一新兴且蓬勃发展的研究方向进行了全面梳理与剖析。该研究旨在系统地回顾、分类和分析现有的类别无关计数方法,勾勒出其从基于参考的早期尝试,到摆脱参考的自主探索,再到结合视觉语言大模型的开放世界文本引导技术的演进脉络,并评估不同方法在标准基准上的表现,最终指出该领域当前面临的挑战与未来的发展方向。
为开展这项研究,作者团队采用了系统性的文献调研方法。他们以该领域奠基性工作(Ranjan等人于2021年提出的FSC-147数据集和FamNet模型)为起点,在Google Scholar上广泛检索了截至2024年底引用该工作的相关文献。为确保综述质量,他们主要纳入了经过同行评审的已发表论文,并对其中30种具有代表性的CAC架构进行了深入分析和性能比较。研究重点围绕FSC-147(涵盖147个物体类别、超过6000张图像)和CARPK(用于评估跨数据集泛化能力)这两个黄金标准基准数据集展开。
研究结果
1. 提出了一种清晰的CAC方法分类法
研究人员提出了一个原创性的分类体系,将现有的CAC方法归纳为三大范式,这一分类也通过示意图直观展示(参见文中Fig. 2)。这三种范式并非孤立存在,而是代表了CAC方法向减少人工监督、增加灵活性方向的概念演进:
- •
基于参考(Reference-based)的方法:这类方法遵循经典的少样本(few-shot)范式,在训练和推理时都需要提供目标物体类别的边界框示例作为视觉参考。代表性工作包括开山之作FamNet,以及后续改进的BMNet+、SAFECount、LOCA等。它们通过将示例特征与查询图像特征进行匹配来生成密度图,从而实现计数。
- •
无参考(Reference-less)的方法:这类方法旨在进一步减少人工干预,完全无需用户提供示例。模型通过分析图像自身的模式(如物体的重复性)来自动推断并计数场景中的主导物体类别。例如,RepRPN-Counter通过一个重复区域提议网络来自动发现重复出现的物体作为示例。CounTR则利用Transformer架构中的自注意力机制来捕捉图像块之间的自相似性。
- •
开放世界文本引导(Open-world Text-guided)的方法:这是最新且最具前景的范式。它利用视觉语言模型(如CLIP),允许用户通过自然语言文本提示(如“红色汽车”、“飞鸟”)来指定要计数的物体类别,实现了最大程度的灵活性和语义控制。代表方法有ZSC、CLIP-Count、CounTX等。
2. 系统回顾了30种CAC架构
文章对三大范式下的30种主要方法进行了详细的架构概述。对于基于参考的方法,文章深入分析了从FamNet的卷积匹配,到BMNet+的可学习双线性相似度,再到LOCA的迭代原型自适应、DAVE的检测-验证范式以及TFPOC/PseCo等基于SAM(Segment Anything Model)的实例分割方法等多种技术路线的演进与创新。对于无参考和文本引导方法,文章也阐述了其核心思想,如CounTR的Transformer自注意力机制和CLIP-Count等方法的视觉-语言对齐策略。
3. 在标准基准上评估并比较了方法性能
作者在CAC领域的标准基准数据集FSC-147上建立了一个性能排行榜,报告了各方法的均方误差(MSE)、平均绝对误差(MAE)等关键指标。分析表明,基于参考的方法(如BMNet+、SAFECount)目前取得了最先进的性能,但它们依赖于人工提供的示例。无参考方法(如CounTR)在完全自主的场景下展现了潜力,但性能仍有提升空间,且其计数目标受限于图像中最具重复性的类别。文本引导方法(如CLIP-Count)则提供了一种更自然、更灵活的交互方式,是当前研究的热点,但其计数精度在处理复杂场景和细粒度类别时仍面临挑战。此外,文章还使用CARPK数据集评估了方法的跨数据集泛化能力。
4. 批判性讨论了挑战与未来方向
基于对现有方法的全面分析,文章指出了CAC领域面临的几个核心挑战:
- •
标注依赖性:虽然CAC旨在减少对大量标注的依赖,但当前性能最佳的方法仍需要在FSC-147等数据集上进行有监督训练,这些数据集本身包含了密集的点级标注。
- •
泛化能力:模型在训练类别和测试类别差异巨大时,或在复杂背景、小目标、严重遮挡等困难场景下的表现仍需提升。
- •
评估基准的局限性:现有数据集(如FSC-147)每张图像通常只标注了一个类别的物体,但实际图像常包含多个类别的实例,这对无参考和文本引导方法的评估提出了难题。
- •
语义控制与用户意图:无参考方法缺乏明确的语义控制,而文本引导方法如何更精准地理解和执行复杂的自然语言指令仍需探索。
结论与讨论
本综述系统性地回顾了类别无关物体计数这一新兴领域自2021年以来的快速发展。通过提出的分类法,文章清晰地展示了研究方法从依赖视觉示例(基于参考),到自主发现重复模式(无参考),再到利用自然语言进行开放世界交互(文本引导)的演进轨迹。这一演变过程体现了研究界对构建更灵活、更通用、更人性化计数系统的不懈追求。
研究表明,基于参考的方法目前在计数精度上领先,但牺牲了自动化程度;无参考方法实现了更高的自主性,但牺牲了语义控制的精确性;而文本引导方法则代表了一个极具吸引力的未来方向,它结合了视觉语言大模型的语义理解能力,有望实现“所言即所数”的理想交互。然而,该范式在精度、复杂场景理解以及与现有密度回归或检测框架的高效融合方面仍有很长的路要走。
总之,这项综述不仅为研究人员提供了该领域的全景式概览和技术发展路线图,更重要的是,它通过批判性的讨论指出了关键的研究空白和未来机遇。例如,开发更高效、更强大的视觉语言计数模型,构建包含多类别标注、更具挑战性的评估基准,以及探索无需密集点级监督的新型学习范式等,都将是推动CAC迈向实际应用的关键。这项研究为计算机视觉领域,特别是迈向通用视觉感知系统的道路上,提供了重要的知识基础和方向指引。