无需使用掩码和身份监督的视频实例分割

《IEEE Transactions on Multimedia》:Video Instance Segmentation Without Using Mask and Identity Supervision

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7

编辑推荐:

  视频实例分割(VIS)需同时检测、分割和跟踪视频中的所有物体实例。现有方法依赖像素级掩码和跨帧实例身份标注,获取成本高。本文提出首个无需掩码和身份标注的VIS框架,引入查询对比与交换掩码学习(QCEN)网络:通过跨帧实例匹配和查询特征对比学习,结合 intra/inter-video 查询交换特性,实现实例掩码生成。实验表明,该方法在YouTube-VIS 2019等三个基准测试中显著缩小了与全监督基线性能差距,达到91.4%的对比效果。

  

摘要:

视频实例分割(VIS)是一个具有挑战性的视觉问题,其任务是同时检测、分割和跟踪视频中的所有对象实例。大多数现有的VIS方法依赖于帧内的像素级掩码监督以及跨帧的实例级身份标注。然而,获取这些“掩码和身份”标注既耗时又成本高昂。我们提出了第一个无需掩码标注且不需要身份监督的VIS框架。为此,我们引入了一个查询对比与交换网络(QCEN),该网络包括实例查询对比和查询交换掩码学习。实例查询对比首先进行跨帧实例匹配,然后进行查询特征对比学习。查询交换掩码学习利用了视频内部和视频之间的查询交换特性:在视频内交换相同实例的查询可以得到一致的实例掩码,而在不同视频之间交换查询则可以得到全零背景掩码。在三个基准测试(YouTube-VIS 2019、YouTube-VIS 2021和OVIS)上的广泛实验表明,所提出方法的优势显著缩小了无身份监督基线方法与我们的无掩码无身份VIS方法之间的性能差距。在YouTube-VIS 2019的验证集上,当使用相同的ImageNet预训练模型时,我们的无掩码无身份方法达到了基于强监督基线方法的91.4%的性能。

引言

视频实例分割(VIS)[1]、[2]、[3]旨在检测、分割和跟踪给定视频中所有语义类的实例。现有的VIS框架大致可以分为两类:基于帧的方法[1]、[4]、[5]和基于片段的方法[6]、[7]、[8]、[9]。基于帧的方法通常是在图像实例分割方法[10]、[11]、[12]、[13]、[14]的基础上添加了一个额外的跟踪分支,而基于片段的方法旨在直接预测整个视频片段中的不同实例掩码。近年来,基于帧和基于片段的VIS方法在标准VIS基准测试中都取得了有希望的性能。然而,大多数现有的VIS方法都需要帧内的像素级掩码标注以及跨帧的实例级身份监督。这种范式被称为完全监督的VIS。我们注意到,手动标注帧内的像素级掩码和跨帧的实例级身份既昂贵又耗时,从而影响了这种完全监督VIS范式在现实世界应用中的可行性。在这项工作中,我们研究了在具有挑战性的无掩码无身份监督设置下的弱监督VIS问题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号