
-
生物通官微
陪你抓住生命科技
跳动的脉搏
跨模态认知共识引导的音视频分割
《IEEE Transactions on Multimedia》:Cross-Modal Cognitive Consensus Guided Audio–Visual Segmentation
【字体: 大 中 小 】 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7
编辑推荐:
跨模态语义对齐与注意力引导的音频-视频分割方法研究,提出C3N网络通过C3IM模块整合多模态置信度与模态无关嵌入相似性,构建全局语义共识,再利用CCAM模块以注意力机制实现语义向局部的渐进式引导,解决异构模态维度差异导致的定位偏差问题,在S4和MS3数据集上达到最优分割性能。
有趣的对象分割对于高效的多媒体分析至关重要。近年来,对象分割技术已被广泛应用于各种视觉信号中,这些技术致力于从不同粒度层面提取所有对象或内容,包括语义分割[1]、[2]、[3]、实例分割[4]、[5]、[6]以及全景分割[7]、[8]。然而,这些努力也带来了一些问题:在分析通常包含音频和视频两种模态的流行多媒体数据时,所有对象或内容是否都真正对用户有用呢?
生物通微信公众号
知名企业招聘