GC3VG：具有粗粒度到细粒度一致性约束的通用多任务视觉地面定位

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Circuits and Systems for Video Technology》：GC3VG: Generalized Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints

【字体：大中小】 时间：2025年11月22日 来源：IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐：

　　本文提出GC3VG框架，扩展多任务视觉锚定至多参照和非参照场景，引入统一一致性细化模块和粒度感知硬采对齐策略，有效提升预测一致性，并在RefCOCO+/g和gRefCOCO数据集上验证其有效性。

摘要：

在这项工作中，我们提出了一种高效且简化的方法来解决泛化多任务视觉定位中的一致性预测问题。虽然大多数现有方法主要关注整合多模态信息并利用多任务学习来提升视觉和语言理解能力，但它们通常依赖于区域和像素级别的联合监督来利用任务之间的互补性。相比之下，C3VG探索了多任务预测之间一致性这一相对较少被关注的问题。为此，我们引入了一个基于粗到细层次架构的多任务视觉定位框架。实证研究表明，结合隐式和显式的一致性约束显著增强了检测结果与分割结果之间的连贯性。然而，C3VG仅适用于单参照对象的视觉定位场景，并且在处理现实世界应用（这些应用通常涉及多个参照对象或甚至没有参照对象）时表现出有限的泛化能力。为了克服这些限制，我们提出了GC3VG，它包含了三个关键改进：（1）扩展到泛化场景，包括多参照对象和非参照对象的情况；（2）一个统一的连贯性细化模块，该模块隐式编码区域和实例级别的特征，同时通过基于IoU的约束显式建模它们之间的关联对齐；（3）一种粒度感知的硬挖掘对齐策略，该策略在特征空间中强制预测一致性，同时增强视觉和语言表示的区分能力。在RefCOCO/+/g和gRefCOCO上的广泛实验证明了所提出框架的有效性和泛化能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号