SCESS-Net：基于语义一致性增强和片段选择的视听事件定位方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月26日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　本文提出SCESS-Net网络，通过双向协同引导注意力（Bi-CGA）模块增强视听模态特征交互，采用多模态相似性学习（MSL）模型筛选高相似度片段，并设计全局语义感知增强（GSPE）模块利用视频级语义差异提升片段级表征。在AVE数据集上的实验表明，该网络能有效解决视听语义失配问题，显著提升事件定位性能。

亮点

•
我们引入了视觉引导的音频注意力机制，同时利用音频引导的视觉注意力机制。通过增强通道和空间维度上的模态间关系，探索视听模态的相关性。
•
设计了多模态相似性学习（MSL）模型，用于筛选具有相似度得分的音频和视频片段。该模型对相似度图谱应用特征随机掩码，有助于保留特定的视听片段。这一过程减少了视听事件间的语义差异，并最小化了信息损失。
•
全局语义感知与增强（GSPE）模块：该模块利用视频级特征和片段级特征之间的语义差异来增强片段级语义表征。

结论

在视听事件定位（AVEL）任务中，为了利用多模态的互补信息并解决视听模态在片段层面存在的语义信息不一致问题，我们提出了SCESS-Net。首先，我们采用多模态线性池化方法和空间-通道注意力机制来实现多通道任务学习，从而改进视觉和听觉模态所传达的信息。其次，为了解决筛选低相似度片段过程中的信息丢失问题，我们引入了多模态相似性学习（MSL）模型，该模型通过随机掩码策略学习鲁棒的视听关系。最后，我们设计了全局语义感知与增强（GSPE）模块，通过捕捉视频级的全局语义信息，并利用其与片段级语义的差异来增强事件表征的一致性。在AVE数据集上的实验结果表明，我们的方法取得了优越的性能。

作者贡献声明

高继琛： 原稿撰写，可视化，验证，监督，形式分析。 周随平： 数据整理，概念化。 于航： 验证。 李晨阳： 概念化。 胡晓曦： 评审编辑，原稿撰写。

利益冲突声明

作者声明，他们没有已知的竞争性财务利益或个人关系，这些利益或关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号