视觉感知文本查询(VATaQ)在指代视频对象分割中的创新应用与性能突破

【字体: 时间:2025年06月19日 来源:Image and Vision Computing 4.2

编辑推荐:

  针对指代视频对象分割(R-VOS)任务中文本指代表达(REs)的固有歧义性问题,研究人员提出视觉感知文本查询(VATaQ)方法,通过视频语义重构文本特征,结合CLIP侧适配模块(CAM)增强视觉语义,显著提升模型性能。实验表明,VATaQ在Ref-YouTube-VOS等数据集上超越基线3.4%,为多模态理解提供新范式。

  

在视频内容爆炸式增长的时代,如何让机器精准理解人类语言指令并分割特定对象,成为计算机视觉领域的核心挑战之一。指代视频对象分割(Referring Video Object Segmentation, R-VOS)任务应运而生,它要求模型仅凭文本描述就能在视频中定位并分割目标对象。然而,现实中的语言表达充满歧义性——比如“穿红衣服的人”在拥挤场景中可能指向多个目标,这种模糊性导致现有模型性能大幅下降。据统计,主流数据集Ref-DAVIS17和A2D-Sentences中分别有8%和11%的文本指代表达(Referring Expressions, REs)存在不确定性,超过35%的非平凡表达更需要复杂语义解析。传统方法直接使用原始文本特征Fw
与视觉特征交互,犹如让机器在迷雾中摸索,误分割率居高不下。

针对这一瓶颈,中国的研究团队在《Image and Vision Computing》发表创新成果,提出视觉感知文本查询(Visual-Aware Text as Query, VATaQ)框架。该方法独辟蹊径,通过视频语义反向重构文本特征,形成与目标高度相关的视觉感知文本特征Fwvc
,同时设计CLIP侧适配模块(CAM)注入语义信息,最终在四大基准数据集实现突破性进展。尤为亮眼的是,在最大规模的Ref-YouTube-VOS数据集上,其性能较基线模型提升3.4%,为多模态智能处理树立新标杆。

研究团队采用三项核心技术:首先利用CLIP视觉模型构建CAM模块,通过层级特征融合生成富含语义的CLIP-视觉特征Fvc
;其次开发视觉感知文本处理器(VTP),采用粗筛细加权策略从Fvc
提取视觉文本特征Fvcw
;最后引入模态平衡注意力(Modality Balance Attention, MBA)机制,平衡文本内注意力和跨模态视觉-文本注意力,确保特征重构的均衡性。实验数据来自Ref-YouTube-VOS等四大主流数据集,涵盖3,978个视频和超15K文本描述。

CLIP-side Adapter Module设计
通过对比实验验证,CAM模块能有效将CLIP语义注入3D视觉骨干网络,使视觉特征Fv
升级为Fvc
。消融研究表明,采用层级适配器结构时,模型在复杂场景下的分割准确率提升2.1%。

视觉感知文本重构
VTP模块的创新性体现在两阶段处理:先用Fw
粗筛视频语义,保留任务相关特征Fvcw
;再以此加权重构Fw
,形成Fwvc
。定量分析显示,该设计使模糊表达的误分割率降低41%。

模态平衡注意力机制
MBA模块通过原型框架整合双路径注意力,在Ref-DAVIS17的“非平凡表达”子集上取得52.3%的mIoU(交并比),较传统交叉注意力提升7.8%。

跨数据集验证
在Ref-YouTube-VOS、A2D-Sentences等数据集上的系统测试表明,VATaQ整体性能达67.9% J&F(区域相似度与轮廓精度综合指标),其中运动模糊场景改善尤为显著。

这项研究从根本上改变了R-VOS任务的特征处理范式,将“以文找图”转变为“图文协同进化”。其重要意义在于:一是首次系统量化文本歧义性对分割性能的影响,提出可解释的解决方案;二是开创性地利用视觉特征修正文本查询,为多模态推理提供新思路;三是CAM模块实现CLIP语义的高效迁移,对资源受限场景具有普适价值。作者Qi Kuang和Ying Chen特别指出,该方法在视频编辑和人机交互领域已展开应用测试,未来将进一步探索动态场景下的实时优化策略。正如审稿人所言:“这不仅是技术的革新,更是方法论的重构——让视觉成为语言表达的校准器。”

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号