用于弱监督时序句子实体识别的双重语义重构网络
《IEEE Transactions on Multimedia》:Dual Semantic Reconstruction Network for Weakly Supervised Temporal Sentence Grounding
【字体:
大
中
小
】
时间:2025年11月19日
来源:IEEE Transactions on Multimedia 9.7
编辑推荐:
弱监督时间句子锚定研究提出DSRN模型,通过特征分离模块区分物体和运动特征,利用双分支结构生成对应提案,并采用一致性约束和对比学习整合结果,在Charades-STA和ActivityNet Captions数据集上取得最优性能。
摘要:
弱监督下的时间句子定位任务旨在在没有精确时间戳的情况下,从未剪辑的视频中识别与给定句子查询语义相关的视频片段。神经心理学研究表明,人类大脑处理信息的方式会随着单词的语法类别而变化,这突显了分别考虑名词和动词的重要性。然而,当前的方法主要使用预先提取的视频特征来重构随机遮盖的查询,忽略了语法类别之间的区别。这种忽视可能会阻碍语言元素与视频中相应成分之间的有意义联系的建立。为了解决这一限制,本文提出了双重语义重构网络(DSRN)模型。DSRN通过将对象特征与名词、运动特征与动词明确关联起来来处理视频特征,从而模仿人类大脑的解析机制。该模型首先通过一个特征解耦模块从视频内容中分别提取与对象和运动相关的特征。然后,在双分支结构中,这些解耦的特征被用于通过两个专门的提案生成模块分别生成关于对象和运动的提案。提出了一致性约束,以确保对象相关提案和运动相关提案的边界具有高度一致性。随后,DSRN利用生成的提案独立地从句子查询中重构被遮盖的名词和动词。最后,应用一个集成模块来合成这两种类型的提案,并通过对比学习区分正面和负面实例。在Charades-STA和ActivityNet Captions数据集上的实验表明,所提出的方法取得了先进的性能。
引言
随着视频数据的呈指数级增长,从海量内容中提取重要信息变得越来越具有挑战性。这凸显了视频理解的重要性。在[1]、[2]中提出的时间句子定位(TSG)旨在自动定位与自然语言查询语义相关的未剪辑视频中的活动。与其他视频理解任务(如时间动作定位[3]、[4]、[5]、[6]和视频动作识别[7]、[8]、[9]、[10])相比,TSG更具挑战性。这是因为TSG要求对视频内容和查询句子有深入的理解,并且还需要它们之间精确的对齐。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号