ADTC:用于点监督视频时刻检索的自适应双阶段树构建

《ACM Transactions on Multimedia Computing, Communications, and Applications》:ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

【字体: 时间:2025年11月08日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  视频时刻检索(VMR)作为跨模态任务,传统方法存在标注成本高或精度不足问题。本文提出自适应双阶段树构建(ADTC)模型,通过整合局部和全局树结构、帧聚类与场景分割、分层树剪枝及提案选择机制,结合多级损失函数优化,显著提升点监督下的检索性能,在Charades-STA和ActivityNet Captions数据集上超越现有方法。

  

摘要

视频片段检索(VMR)是一项关键的跨模态任务,具有广泛的理论和应用价值。虽然完全监督的方法能够取得优异的性能,但它们受到时间边界标注高成本的限制。弱监督方法虽然能够缓解这一问题,但由于标注精度较低而效果不佳。近期,基于单帧标注的点监督方法作为一种成本效益较高的替代方案应运而生,展现出广阔的应用前景。然而,这些方法往往无法有效利用标注帧进行跨模态语义对齐,同时忽略了视频的全局结构和层次化片段关系,导致在标注稀疏的情况下检索精度不理想。为了解决这些问题,我们提出了自适应双阶段树构建(ADTC)模型,这是一个专为点监督VMR设计的新型框架。首先,该模型引入了双阶段假设树架构,能够无缝整合局部和全局树结构,从而有效建模不同时间尺度上的语义关系。其次,它结合了帧聚类和场景分割技术来提取视频内容的结构特征,为节点相关性的全面评估提供了基础,并通过自适应合并控制策略优化树的结构。第三,模型实现了层次化的自适应树剪枝机制,并结合了一种新的样本选择机制来区分正样本和负样本。这些组件通过多层损失函数进行联合优化,从而提升了语义对齐能力和检索性能。实验结果表明,在Charades-STA和ActivityNet Captions数据集上,ADTC在点监督设置下达到了领先的水平:在Charades-STA数据集上,当IoU为0.5时R@1值为50.28%,当IoU为0.7时为34.79%,优于其他点监督方法;在ActivityNet Captions数据集上,当IoU为0.3时R@1值为65.02%,当IoU为0.5时为46.13%,创下了新的最佳纪录。值得注意的是,ADTC在显著降低标注成本的同时,还超越了完全监督方法的表现。消融实验进一步验证了各模型组件的有效性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号