在Transformer网络中学习预测感知的先验,以实现精确的时空视频地面定位
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Learning Prediction-aware Prior in Transformer Network for Accurate Spatio-Temporal Video Grounding
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
时空视频定位(STVG)旨在精确定位未修剪视频中的时空管。现有方法分离空间和时间接地任务,忽视两者强关联性。本文提出PDTNet,通过预测时间边界作为先验引导物体框,增强时空关联。采用参考查询提升时间边界判别性,上下文作为空间先验调制特征,引入预测感知高斯先验精确定位。实验验证其有效性,代码开源
摘要
时空视频定位(STVG)旨在在未经修剪的视频中精确定位与给定语言描述相对应的时空对象。许多现有方法将空间定位和时间定位视为独立的任务,忽略了两者之间的紧密关联,而这种关联对于准确地将空间区域(如物体)与其随时间的变化对齐至关重要。因此,为了增强时空关联性,我们引入了一种新的基于先验的Transformer网络(PDTNet),该网络利用预测的时间边界作为先验来指导物体边界框的定位,从而提高时空定位的准确性。首先,PDTNet使用一种称为“参考查询”的时间先验,以提高语言相关内容与语言无关内容之间的区分度,从而改善时间边界的定位精度。此外,预测时间边界内的上下文作为另一种先验知识,用于调节空间特征。我们还引入了一种基于预测的高斯先验,以实现精确的物体定位。在STVG基准测试上的大量实验验证了PDTNet的有效性。代码可访问:
https://github.com/tongzhang111/PDTNet。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号