
-
生物通官微
陪你抓住生命科技
跳动的脉搏
无需使用掩码和身份监督的视频实例分割
《IEEE Transactions on Multimedia》:Video Instance Segmentation Without Using Mask and Identity Supervision
【字体: 大 中 小 】 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7
编辑推荐:
视频实例分割(VIS)需同时检测、分割和跟踪视频中的所有物体实例。现有方法依赖像素级掩码和跨帧实例身份标注,获取成本高。本文提出首个无需掩码和身份标注的VIS框架,引入查询对比与交换掩码学习(QCEN)网络:通过跨帧实例匹配和查询特征对比学习,结合 intra/inter-video 查询交换特性,实现实例掩码生成。实验表明,该方法在YouTube-VIS 2019等三个基准测试中显著缩小了与全监督基线性能差距,达到91.4%的对比效果。
视频实例分割(VIS)[1]、[2]、[3]旨在检测、分割和跟踪给定视频中所有语义类的实例。现有的VIS框架大致可以分为两类:基于帧的方法[1]、[4]、[5]和基于片段的方法[6]、[7]、[8]、[9]。基于帧的方法通常是在图像实例分割方法[10]、[11]、[12]、[13]、[14]的基础上添加了一个额外的跟踪分支,而基于片段的方法旨在直接预测整个视频片段中的不同实例掩码。近年来,基于帧和基于片段的VIS方法在标准VIS基准测试中都取得了有希望的性能。然而,大多数现有的VIS方法都需要帧内的像素级掩码标注以及跨帧的实例级身份监督。这种范式被称为完全监督的VIS。我们注意到,手动标注帧内的像素级掩码和跨帧的实例级身份既昂贵又耗时,从而影响了这种完全监督VIS范式在现实世界应用中的可行性。在这项工作中,我们研究了在具有挑战性的无掩码无身份监督设置下的弱监督VIS问题。