跨模态认知共识引导的音视频分割

《IEEE Transactions on Multimedia》:Cross-Modal Cognitive Consensus Guided Audio–Visual Segmentation

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7

编辑推荐:

  跨模态语义对齐与注意力引导的音频-视频分割方法研究,提出C3N网络通过C3IM模块整合多模态置信度与模态无关嵌入相似性,构建全局语义共识,再利用CCAM模块以注意力机制实现语义向局部的渐进式引导,解决异构模态维度差异导致的定位偏差问题,在S4和MS3数据集上达到最优分割性能。

  

摘要:

音视频分割(AVS)旨在从视频帧中提取出发声对象,该对象通过像素级的分割掩码进行表示,适用于多模态视频编辑、增强现实和智能机器人系统等应用场景。早期的研究通过密集的特征级音视频交互来完成这一任务,但这种方法忽略了不同模态之间的维度差异。具体来说,音频片段通常只能为每个序列提供一个全局语义标签,而视频帧则覆盖了多个不同局部区域中的多个语义对象,这导致了在表示上相似但在语义上不同的对象被错误定位的问题。在本文中,我们提出了一种基于跨模态认知共识的网络(C3N),该网络能够从全局维度对齐音视频语义,并通过注意力机制逐步将这些语义信息注入到局部区域中。首先,我们开发了一个跨模态认知共识推理模块(C3IM),通过整合音频/视频分类的置信度以及与模态无关的标签嵌入之间的相似性来提取统一模态的标签。然后,我们将这个统一模态的标签作为显式的语义级指导信息反馈到视觉主干网络中,通过认知共识引导的注意力模块(CCAM)来突出显示与目标对象对应的局部特征。在AVSBench数据集的单声源分割(S4)设置和多声源分割(MS3)设置上的广泛实验表明,所提出的方法具有很高的有效性,达到了业界领先的性能水平。

引言

有趣的对象分割对于高效的多媒体分析至关重要。近年来,对象分割技术已被广泛应用于各种视觉信号中,这些技术致力于从不同粒度层面提取所有对象或内容,包括语义分割[1]、[2]、[3]、实例分割[4]、[5]、[6]以及全景分割[7]、[8]。然而,这些努力也带来了一些问题:在分析通常包含音频和视频两种模态的流行多媒体数据时,所有对象或内容是否都真正对用户有用呢?

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号