一种通用的、不依赖于类的对象计数网络,采用自适应偏移变形卷积技术
《Neurocomputing》:A Generic Class-agnostic Object Counting Network with Adaptive Offset Deformable Convolution
【字体:
大
中
小
】
时间:2025年08月21日
来源:Neurocomputing 6.5
编辑推荐:
类无关目标计数网络设计及其扩展应用。提出自适应偏移变形卷积(AODC),通过4D卷积计算特征自相似性图获得自适应偏移量,解决多尺度目标检测问题。方法支持无参考、零样本和少样本三种设置,前者利用自相似性无需示例,后者通过跨模态注意力机制整合文本语义。在FSC-147等数据集上验证,性能显著优于SOTA方法。
在计算机视觉领域,物体计数是一项基础而重要的任务,它广泛应用于诸如人群统计、车辆检测、动物识别等多个场景。传统的方法通常专注于特定类别,例如人们、汽车或动物,这些方法需要大量的标注数据,并且在面对新的、未见过的类别时表现不佳。然而,随着技术的发展,研究者开始关注更加通用的物体计数方式,即类别无关物体计数(Class-Agnostic Object Counting, CAC)。这种技术不仅减少了对标注数据的依赖,还能够处理未知类别中的物体。CAC方法可以分为几个主要的设置,包括少样本计数(Few-shot Counting, FSC)、零样本计数(Zero-shot Counting, ZSC)以及无参考计数(Reference-less Counting)。
在无参考计数的场景下,模型需要在没有示例的情况下,识别图像中未见过的类别物体的数量。这类任务的挑战在于,模型无法通过传统的特征匹配来获得有效的信息。相比之下,少样本计数方法则利用少量的视觉示例作为参考,以学习和泛化物体计数的能力。零样本计数方法则进一步利用语义信息,例如类别名称,作为参考来辅助模型识别物体。
尽管这些方法各有特点,但它们在处理不同尺度的物体时存在一定的局限性。传统的物体计数方法通常假设物体具有相似的尺度,并且在图像中,这种假设并不总是成立。因此,如何在不依赖示例的情况下,识别不同尺度的物体,成为了一个关键的研究问题。此外,模型在进行物体定位和计数时,常常忽略了物体自身的相似性特征,从而影响了识别的准确性。
为了解决这些问题,研究人员提出了多种创新方法。例如,通过计算图像特征的自相似性图,可以更有效地识别物体的形状和大小。这种方法的核心在于,利用自相似性图中的信息,通过四维卷积获取物体在不同位置的偏移量,从而实现对物体的精准定位和计数。此外,一些方法还结合了注意力机制,以增强模型对特定类别特征的识别能力。
近年来,随着深度学习技术的进步,物体计数方法在多个数据集上取得了显著的成果。例如,FSC-147数据集包含了大量少样本物体计数任务的图像,这些图像覆盖了89个不同的物体类别。通过在这些数据集上进行实验,研究人员发现,新的方法在多个任务中均表现出色,特别是在无参考计数、少样本计数和零样本计数的场景下。这些实验结果不仅验证了新方法的有效性,还展示了其在不同设置下的泛化能力。
为了进一步提高物体计数的准确性,研究人员还探索了多模态方法的应用。例如,利用文本和图像的结合,可以增强模型对语义信息的理解。这种方法通常依赖于预训练的文本编码模型,如CLIP,这些模型能够将文本和图像映射到同一个特征空间。然而,一些研究表明,现有的多模态方法在处理物体空间结构时仍然存在一定的局限性,例如对物体的形状和位置感知不够准确。
针对这些问题,研究者提出了一种新的网络结构,即基于自适应偏移可变形卷积(Adaptive Offset Deformable Convolution, AODC)的通用类别无关物体计数网络。该网络首先专注于无参考计数任务,即在没有示例的情况下,通过计算图像特征的自相似性图来识别物体的数量。随后,该网络可以扩展到少样本计数和零样本计数任务,分别利用视觉示例和语义信息作为参考。在少样本计数任务中,模型可以利用多个视觉示例来获取更准确的偏移量,从而提高物体识别的精度。在零样本计数任务中,模型可以利用语义信息来增强对物体的识别能力。
AODC网络的设计具有一定的创新性,它通过四维卷积来获取图像特征的自相似性图,并利用这些图中的信息来计算物体的偏移量。这种方法不仅能够识别不同尺度的物体,还能够提高物体定位的准确性。在无参考计数任务中,模型可以通过计算每个像素点与其他像素点的相似性值,来生成一个四维相似性图,该图能够反映图像中物体的分布情况。随后,通过四维卷积,模型可以将这些相似性信息转换为物体在图像中的水平和垂直偏移量,从而实现对物体的精准定位。
在少样本计数任务中,模型可以利用视觉示例来增强对物体的识别能力。具体来说,模型可以将图像特征与视觉示例的特征进行对比,以获取更准确的偏移量。这种方法不仅能够提高物体识别的精度,还能够减少对大量标注数据的依赖。在零样本计数任务中,模型可以利用语义信息来辅助识别物体。具体来说,模型可以将文本信息嵌入到图像特征空间中,并利用注意力机制来增强对特定类别特征的识别能力。
为了验证AODC网络的有效性,研究人员在多个数据集上进行了实验。其中包括FSC-147数据集,该数据集包含了大量少样本物体计数任务的图像。实验结果表明,AODC网络在多个任务中均表现出色,特别是在无参考计数、少样本计数和零样本计数的场景下。此外,研究人员还进行了跨数据集验证,例如在汽车计数数据集CARPK和多个预训练目标检测器的数据集上进行了实验。实验结果进一步验证了AODC网络的泛化能力,表明其在不同数据集和不同设置下均能够取得良好的效果。
总的来说,AODC网络的设计为类别无关物体计数任务提供了一种新的解决方案。该网络不仅能够处理不同尺度的物体,还能够通过自相似性图和注意力机制来提高物体识别的准确性。此外,该网络可以扩展到少样本和零样本计数任务,从而形成一个通用的物体计数框架。这些研究成果不仅为物体计数任务提供了新的思路,还为未来的研究奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号