E4DM-VOS:一种基于增强型四维记忆框架的长期视频对象分割网络

《Optics & Laser Technology》:E4DM-VOS: Long-term video object segmentation network with an enhanced four-dimensional memory framework

【字体: 时间:2026年03月27日 来源:Optics & Laser Technology 4.6

编辑推荐:

  视频对象分割中的长期一致性、动态背景及有限标注问题,本文提出E4DM-VOS框架,通过四维记忆架构(含瞬态、感官、工作、长期记忆)和动态卷积投影模块,结合跨帧特征融合机制,有效提升多尺度时空建模能力,实验在四个数据集上平均J&F得分达89.1%,优于现有方法。

  
李国发|邵金元|陈宇涵|齐凌峰|康秉翔|张展华|张丽萍|李杰
重庆大学机械与车辆工程学院,中国重庆,400044

摘要

视频对象分割(VOS)是计算机视觉中的一个基本问题,在自动驾驶、视频理解和人机交互等领域有着广泛的应用。然而,VOS面临着对象外观的巨大变化、动态变化的背景以及有限的监督数据等挑战。为了解决这些限制,特别是空间时间记忆的利用不足和特征编码器的表达能力不足的问题,我们提出了一种新的半监督学习框架,该框架具有增强的四维记忆(E4DM)管理和动态特征编码功能。受认知记忆模型的启发,我们的方法构建了一个包含短暂记忆、感觉记忆、工作记忆和长期记忆的分层记忆架构。这种设计有助于有效地保留和检索历史帧中的相关时间信息。为了更好地利用帧与帧之间的时间依赖性,我们引入了一种跨帧特征融合机制,以动态提取时间相关性,从而增强对象分割中的空间时间一致性建模。为了进一步提高表示能力,我们设计了一种多尺度动态卷积投影器,它结合了可变形卷积和动态卷积核,以适应不同尺度上的对象变形。在四个数据集上进行的广泛实验表明,E4DM-VOS取得了优异的性能,平均J&F得分达到了89.1%,尤其是在长期视频分割任务中超越了现有方法。

引言

半监督视频对象分割的目标是在仅知道对象在第一帧中的标注掩码的情况下,识别出视频序列中对象的像素位置。VOS已在多个领域得到广泛应用,包括机器人技术、视频编辑、自动驾驶和医学成像。然而,VOS仍然是一项具有高度挑战性的任务。主要困难在于对象引导仅限于第一帧,而目标对象在时间上可能会发生规模、外观和形状的显著变化。此外,动态背景和复杂的场景转换会显著降低分割性能,尤其是在长时间的视频序列中。因此,现有方法的准确性往往会随着视频长度的增加而下降,这突显了当前模型在保持长期一致性方面的局限性。
基于特征匹配的方法已成为视频对象分割的主流范式,逐渐取代了在线微调和掩码传播方法,因为它们具有更高的分割准确性和更快的离线推理速度。这些方法通过测量目标帧与一个或多个参考帧之间的对应关系来执行逐帧分割。例如,FEELVOS [1] 和 CFBI [2] 使用第一帧和前一帧作为参考,并与目标帧进行多尺度隐式匹配来分割对象。STM [3] 通过加入中间帧来增强参考策略,除了第一帧和前一帧之外,形成了一个结构化的空间时间记忆网络,有效地建模了长距离的时间依赖性,从而在各种基准数据集上实现了显著的性能提升,同时保持了相对较低的计算成本。在STM框架的基础上,后续的几种方法 [4]、[5]、[6]、[7]、[8] 探索了更高效的内存管理和全局匹配机制,以提高分割质量。
然而,这些方法不可避免地引入了冗余计算,限制了它们在长视频序列中的效率。因此,越来越多地采用具有动态记忆存储机制的空间时间记忆网络,以在整体准确性和效率之间取得更好的平衡。SAM2 [9] 和 Gong [10] 使用结构化的先进先出(FIFO)记忆队列来管理时间令牌和掩码。通过这些基于队列的缓冲区动态优先处理最新的上下文,这些方法有效地减少了信息冗余,同时保持了关键的长期依赖性,从而确保在扩展的视频序列中进行稳健和高效的推理。XMem [11] 提出了一种受Atkinson-Shiffrin记忆模型启发的长期视频对象分割新架构,结合了三种不同的时间记忆组件:快速更新的感觉记忆、高分辨率的工作记忆和紧凑的长期记忆。通过在这些记忆层次结构中进行时空记忆读取操作,XMem 有效地检索相关特征以指导掩码预测。Cutie [12] 通过对象级记忆读取提高了分割的鲁棒性。它保留了高分辨率的输出特征以进行精确分割,并引入了前景-背景注意力机制来增强前景对象和背景区域之间的语义分离。尽管这些基于记忆的匹配方法表现出色,但在实际应用中仍存在稳定性和一致性方面的局限性。具体来说,空间时间记忆网络经常出现特征匹配不准确和历史帧中存储的特征表示分布不平衡的问题。这些挑战可能会影响基于记忆的分割的可靠性,特别是在长视频序列中导致性能下降。
现有方法性能不佳主要是由于两个主要限制:特征编码能力不足和历史帧特征的存储策略不理想。为了解决这些问题,我们提出了一个强调历史帧高效内存管理和强大特征编码的新框架。具体来说,我们引入了一个四维记忆架构,并结合了一个多尺度动态卷积投影模块。该记忆架构在训练和推理阶段都包含了跨帧特征融合机制,允许动态整合来自时间相邻帧的分割特征。这种设计有助于构建一个包含短暂记忆、感觉记忆、工作记忆和长期记忆组件的增强型分层记忆架构。通过更全面地捕捉空间时间依赖性,所提出的框架在复杂条件下显著提高了分割性能。为了提高帧级特征的表示能力,我们开发了一个多尺度动态卷积投影器,其中包括一个通道缩减卷积模块和一个多尺度动态卷积模块。在这个投影器中,输入特征通道被分组并在不同的感受野尺度上应用可变形卷积,从而能够自适应地建模对象变形。随后,基于输入特征生成动态卷积核,并将其应用于经过可变形卷积精炼的特征,从而实现局部和全局上下文的联合建模。所提出的E4DM-VOS框架的总体架构在图1中概念性地进行了说明。
我们的主要贡献总结如下:
  • 我们开发了一个包含短暂记忆、感觉记忆、工作记忆和长期记忆组件的四维记忆框架。通过系统地组织多个时间尺度和特征层次结构中的分割记忆,该架构能够更全面地建模视频序列中对象的空间时间动态。因此,该模型在复杂和动态的场景条件下表现出更强的对象捕获能力。
  • 我们提出了一个多尺度动态卷积投影器(MDIP),旨在增强模型捕获全局和局部动态信息的能力。通过分组输入特征并在多个尺度上应用可变形卷积,该投影器有效地建模了不同场景中的空间变化。此外,动态生成的卷积核的整合进一步丰富了特征表示,使网络能够更灵活地适应对象外观在不同分割场景中的变化。
  • 我们提出了一种新的动态跨帧特征融合模块(CFFM),通过在训练和推理阶段结合不同的融合机制,促进了相邻帧之间的有效信息传播。这种方法增强了前一帧特征对当前帧的影响,从而增强了空间时间依赖性的建模。因此,该模型在涉及快速运动或复杂背景的场景中表现出更好的鲁棒性,分割准确性显著提高。

部分摘录

半监督视频对象分割

大多数早期的VOS方法依赖于在线微调。这些方法 [13]、[14] 在推理过程中使用标注的对象实例来调整分割网络,使模型能够记住对象特定的属性,如外观、形状和类别。这将模型的输出空间从一般对象分割转变为特定实例的分割。然而,由于微调发生在推理过程中,这些方法通常计算成本高且速度慢。尽管最近

总体

所提出模型的整体架构如图2所示。该模型基于Transformer骨干结构,旨在通过存储和整合历史帧中的对象特征来执行高精度的视频对象分割,从而处理不同长度的视频。给定一个输入视频序列
[I0, I1, I2, I3, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ItR3×H ItR3×H ItR3×H < />编码器被用来提取每个帧的深度视觉特征。然后使用轻量级的ResNet-18来整合图像

实现细节

我们使用PyTorch框架实现了我们的长视频对象分割网络E4DM-VOS,并在Ubuntu 24.04上进行所有实验。硬件配置包括一个AMD EPYC 7F72 24核处理器和一个NVIDIA GeForce RTX 4090D GPU。对于特征编码,使用ResNet-50作为视觉编码器从输入图像中提取特征,生成输出特征的输出通道维度为Cout

结论

我们提出了一种基于增强型四维记忆框架的新型长期视频对象分割网络,旨在更有效地捕获对象表示并利用历史帧中的分割线索。具体来说,MDIP模块构建了一个多尺度动态卷积投影机制,显著增强了特征表示。这种丰富的表示有助于特征存储和对象分割的匹配。

CRediT作者贡献声明

李国发:写作 – 审稿与编辑、监督、方法论、概念化。邵金元:写作 – 审稿与编辑、原始草稿撰写、方法论、数据管理、概念化。陈宇涵:写作 – 原始草稿撰写、监督。齐凌峰:写作 – 审稿与编辑、监督。康秉翔:写作 – 审稿与编辑。张展华:写作 – 审稿与编辑、监督。张丽萍:写作 – 审稿与编辑、监督、项目管理。李杰:写作 –

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了中国国家重点研发计划(项目编号:2024YFB2505500)和国家自然科学基金(项目编号:52272421)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号