oVLCounting：通过语言驱动的示例 grounded 方法来应对零样本计数问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：oVLCounting: Taming Zero-shot Counting via Language-driven Exemplar Grounding

【字体：大中小】 时间：2026年02月07日 来源：Pattern Recognition 7.6

编辑推荐：

　　零样本目标计数、语言引导的示例感知器、大语言模型整合、FSC-147-Express数据集、跨模态特征学习

Mingjie Wang|Zhuohang Li|Yong Dai|Eric Buys|Minglun Gong

浙江科技大学数学系，中国杭州

摘要

近年来，由于类不可知计数（Class-Agnostic Counting，CAC）问题在适用范围广泛且效率优于类特定计数（Class-Specific Counting，CSC）方面表现出色，因此受到了越来越多的关注。本文提出了一种新的框架VLCounting，旨在通过深度整合语言引导的示例 grounded（example grounding）机制来提升零样本对象计数能力。具体而言，VLCounting 包括一个创新的语言导向示例感知器（Language-oriented Exemplar Perceptron）和一个下游的视觉零样本计数流程。该感知器利用最先进的大型语言模型（Large Language Models，LLMs）提供的丰富语义先验，从语言-视觉协同信号中提取准确的示例线索。同时，计数流程通过双分支和交叉注意力（cross-attention）机制有效提取细粒度特征，从而实现高质量的相似性学习。除了弥合 LLM 与视觉计数任务之间的差距外，基于表达式的示例估计（expression-guided exemplar estimation）显著提升了对任意类别对象的零样本学习能力。此外，开发了带有精细标注语言表达式的 FSC-147-Express 数据集，为开发和验证基于语言的计数模型开辟了新途径。大量实验表明，VLCounting 的性能优于现有的通用示例学习方法，在验证集上的平均绝对误差（MAE）降低了 35.6%，均方根误差（RMSE）降低了 39.1%。其准确率也与几种类别特定计数模型相当，进一步证明了其竞争优势。扩展后的数据集和实现代码将公开发布在 https://github.com/CV-MM-Lab/VLCounting。

引言

在过去十年中，类特定计数（CSC）问题因其在多种场景中的广泛应用而受到研究界的广泛关注，例如人群[1]、细胞[2]、水果[3]和车辆[4]计数模型。尽管这些模型表现优异，但它们严重依赖于针对特定对象类别的大量标注数据（例如，JHU-CROWD++ 数据集有 151 万个标注点[5]）。为了减少标注工作负担并提高计数方法的可适用性，越来越多的类不可知计数（CAC）模型[6]、[7]、[8]被提出，这些模型能够在不同输入场景中计数对象，而无需关注其具体类别。这些模型能够在多种场景中实现无缝对象计数，从生物切片上的细胞实体到图像中的人群，再到星系中的恒星，且无需进行大量重新训练。然而，如图 1(a) 所示，大多数这类方法明确依赖于用户提供的示例，这限制了它们在现实世界应用中的实用性，例如水下生物分析系统[9]，因为在这些场景中目标对象通常具有非规则特征。最近的研究转向了更灵活的无示例计数（Exemplar-Free Counting，EFC）范式[10]、[11]、[12]、[13]。如图 1(b) 所示，现有的 EFC 方法要么仅通过原始图像分析捕获示例线索而不利用丰富的语义指导[10]、[12]，要么依赖简单的类别名称来学习区分性对象特征[11]、[13]。

尽管已经做出了努力来消除对用户标注示例的需求，但以下缺点仍限制了它们的应用：i) 所有当前的 EFC 模型仅依赖原始图像和单词名称来指导示例挖掘，忽略了自然语言中的丰富语义背景[14]、[15]；ii) 大型语言模型（LLMs）[16]、[17] 的出现为各种视觉任务的性能提升铺平了道路[18]、[19]，得益于 LLMs 的强大迁移能力。然而，EFC 尚未充分利用 LLMs 在提升零样本学习能力方面的优势；iii) 初期的 EFC 方法倾向于通过扫描整个输入图像来提取示例表示，这一过程既耗费资源，也不擅长快速识别位置线索。相反，正如 Dehaene[20] 所指出的，人类在开始下游计数任务之前，能够通过理解语言信号（例如语言和文本）迅速定位对象。

为了解决这些不足，我们提出了一种新的基于表达式的 EFC 模型 VLCounting，通过利用自然表达式中的丰富语义先验来提升零样本计数性能。我们的目标是使 EFC 具备类似人类的语言理解能力。例如，当给定“桌子上有一篮子书”的表达式和一张输入图像时，人类可以利用他们积累的知识先验，轻松识别出丰富的语义信息，如“书在篮子中”的二维场景分布以及“书”的大致数量。

具体来说，我们引入了一个语言导向的示例感知器，通过挖掘丰富的语言语义先验来预测精确的示例。据我们所知，这是首次尝试在 LLM 和视觉计数问题之间建立桥梁。然而，主要挑战在于缺乏标注的语言-视觉对，这阻碍了语言兼容模块的有效训练。为了克服这一障碍，我们通过为每个样本添加细粒度表达式，扩展了最大的 CAC 专用数据集 FSC-147[8]。这些描述是使用预训练的视觉-语言模型 BLIP[21] 和 GPT[22] 制作的，并进行了微调。这个名为 FSC-147-Express 的丰富数据集为研究语言导向的计数方法提供了新的平台。大量实验证明了我们提出的 VLCounting 的先进性能，其在验证集上的表现优于现有的通用示例学习方法，平均绝对误差降低了 35.6%，均方根误差降低了 39.1%。此外，其准确率也与几种类别特定计数模型相当，进一步证明了其竞争优势。扩展后的数据集和实现代码将公开发布在 https://github.com/CV-MM-Lab/VLCounting。

相关研究

计算机视觉领域的最新进展推动了各个领域先进技术的发展，包括分割[23]、[24]、检测[25]、[26]以及识别任务[27]、[28]、[29]、[30]、[31]。此外，还提出了许多类特定计数（CSC）方法[12]，用于准确计数预定义类别内的对象实例。虽然这些方法表现优异，但它们的成功依赖于大量特定于对象类别的标注数据（例如，JHU-CROWD++ 数据集有 151 万个标注点[5]）。为了减少标注工作负担并提高计数方法的可适用性，越来越多的类不可知计数（CAC）模型[6]、[7]、[8]被提出，这些模型能够在不同输入场景中计数对象，而无需关注其具体类别。这些模型能够在多种场景中实现无缝对象计数，从生物切片上的细胞实体到图像中的人群，再到星系中的恒星，且无需进行大量重新训练。然而，如图 1(a) 所示，大多数这类方法明确依赖于用户提供的示例，这限制了它们在现实世界应用中的实用性，例如水下生物分析系统[9]，因为在这些场景中目标对象通常具有非规则特征。最近的研究转向了更灵活的无示例计数（EFC）范式[10]、[11]、[12]、[13]。如图 1(b) 所示，现有的 EFC 方法要么仅通过原始图像分析捕获示例线索而不利用丰富的语义指导[10]、[12]，要么依赖简单的类别名称来学习区分性对象特征[11]、[13]。

尽管已经做出了努力来消除对用户标注示例的需求，但以下缺点仍限制了它们的应用：i) 所有当前的 EFC 模型仅依赖原始图像和单词名称来指导示例挖掘，忽略了自然语言中的丰富语义背景[14]、[15]；ii) 大型语言模型（LLMs）[16]、[17] 的出现为各种视觉任务的性能提升铺平了道路[18]、[19]，得益于 LLMs 的强大迁移能力。然而，EFC 尚未充分利用 LLMs 在提升零样本学习能力方面的优势；iii) 初期的 EFC 方法倾向于通过扫描整个输入图像来提取示例表示，这一过程既耗费资源，也不擅长快速识别位置线索。相反，正如 Dehaene[20] 所指出的，人类在开始下游计数任务之前，能够通过理解语言信号（例如语言和文本）迅速定位对象。

如图 1(c) 所示，为了解决这些不足，我们提出了一种新的基于表达式的 EFC 模型 VLCounting，通过利用自然表达式中的丰富语义先验来提升零样本计数性能。我们的目标是使 EFC 具备类似人类的语言理解能力。例如，当给定“桌子上有一篮子书”的表达式和一张输入图像时，人类可以利用他们积累的知识先验，轻松识别出丰富的语义信息，如“书在篮子中”的二维场景分布以及“书”的大致数量。

具体来说，我们引入了一个语言导向的示例感知器，通过挖掘丰富的语言语义先验来预测精确的示例。据我们所知，这是首次尝试在 LLM 和视觉计数问题之间建立桥梁。然而，主要挑战在于缺乏标注的语言-视觉对，这阻碍了语言兼容模块的有效训练。为了克服这一障碍，我们通过为每个样本添加细粒度表达式来扩展最大的 CAC 专用数据集 FSC-147[8]。这些描述是使用预训练的视觉-语言模型 BLIP[21] 和 GPT[22] 制作的。这个丰富的数据集 FSC-147-Express 为研究语言导向的计数方法提供了新的平台。大量实验证明了我们提出的 VLCounting 的先进性能，突显了语言标注对于计数问题的重要性。总之，本文有四个主要贡献：

•

新框架： 引入了 VLCounting，通过语言导向的语义先验指导准确示例线索（例如对象位置/规模）的学习，并使用双分支网络进行细粒度相似性学习，以提升零样本计数性能。

•

应用范围： 该框架具有高度灵活性和广泛适用性，无需大量微调即可轻松应用于其他未知示例的计数场景。其以语言为中心的方法提升了人机交互和视觉计数智能。

•

最佳性能： VLCounting 的性能优于所有 CAC 方法，在准确性方面达到了与依赖用户提供的示例的方法相当的水平。

•

新的评估平台： 扩展了大规模的 CAC 专用数据集 FSC-147，创建了 FSC-147-Express，为开发/评估未来的语言引导计数模型提供了新的基准。

实验结果与分析

实现细节 i) 对于语言导向的示例感知器，输入图像被调整为 640×640 的尺寸，表达式令牌的长度固定为 20。语言编码器和视觉编码器分别包含 12 层和 6 层变换器，同时在多模态整合和回归模块中依次叠加了 6 层。为了加速示例感知器的收敛，视觉编码器使用 TransVG[50] 中的对应参数进行初始化。

结论与未来工作

创新：本文提出了 VLCounting，这是一种用于提升零样本对象计数的新框架。我们的关键创新在于一个语言导向的示例感知器，它实现了两个突破：（1）在验证集上的性能大幅提升（平均绝对误差降低了 35.6%，均方根误差降低了 39.1%），以及（2）大型语言模型（LLMs）与视觉计数任务之间的关键联系。我们还提供了 FSC-147-Express 数据集，这是一个扩展的数据集。

CRediT 作者贡献声明

Mingjie Wang： 起草原文、方法论制定、资金申请。Zhuohang Li： 审稿与编辑。Yong Dai： 验证。Eric Buys： 可视化。Minglun Gong： 监督与概念化。

利益冲突声明

作者声明他们没有可能影响本文工作的利益冲突。

致谢

本工作得到了中国浙江省自然科学基金（项目编号 LQN25F020004）、浙江科技大学科学基金（项目编号 22062338-Y）以及加拿大自然科学与工程研究委员会（NSERC）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号