面向Transformer时序动作检测的长周期预训练策略LTP研究

【字体: 时间:2025年07月22日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决时序动作检测(TAD)中数据稀缺导致的注意力坍塌和性能失衡问题,研究人员提出面向DETR框架的长周期预训练策略LTP。通过类别特征合成和长周期预训练任务,在ActivityNet-v1.3和THUMOS14数据集上实现SOTA性能,显著缓解transformer模型在视频理解中的长程依赖学习难题。

  

在视频内容爆炸式增长的时代,如何精准定位未剪辑视频中的动作片段成为计算机视觉领域的重要挑战。时序动作检测(Temporal Action Detection, TAD)技术不仅需要识别动作类别,还需确定动作的起止时间,这对视频监控、智能体育分析等应用至关重要。然而,当前基于Transformer的检测框架DETR在TAD任务中遭遇严峻挑战——这种需要大量训练数据的模型,在面对标注成本极高的视频数据时,出现了令人头疼的"注意力坍塌"现象:模型的自注意力机制失效,所有查询都集中在少数关键元素上;同时还存在对长动作过度拟合、短动作检测性能骤降的失衡问题。

针对这一困境,成均馆大学(Sungkyunkwan University, SKKU)的Jihwan Kim团队在《Pattern Recognition》发表创新研究,提出名为长周期预训练(Long-Term Pre-training, LTP)的全新策略。研究人员突破性地从检测器预训练而非特征提取器预训练的角度切入,设计了两大核心技术:类别特征合成将修剪视频片段按目标类别重组为长视频特征;长周期预训练任务则通过序数条件(如"检测第二至第四个动作")和尺度条件(如"定位短时动作")强化模型的长程依赖学习能力。实验表明,该方法在主流基准测试中大幅超越现有DETR模型,为解决视频理解中的根本性难题提供了新思路。

关键技术方法包括:1) 基于Kinetics-400的类别特征合成技术,将修剪视频重构为具有TAD任务特性的长视频;2) 设计序数与尺度两类预训练条件任务;3) 在ActivityNet-v1.3和THUMOS14数据集上验证,其中THUMOS14包含1,574段未修剪视频。

研究结果部分显示:
• 注意力机制分析:LTP有效防止了自注意力层坍塌,使查询能均匀关注视频特征;
• 长度均衡测试:相比基线模型在短动作检测上mAP提升达12.3%,证明解决了性能失衡问题;
• 跨数据集验证:在20%训练数据场景下仍保持91%的完整数据性能,凸显数据效率优势。

结论部分强调,这是首个专门针对DETR框架的TAD预训练方案,其创新性体现在:1) 通过特征合成将分类数据转化为检测数据;2) 设计的条件预训练任务可迁移到各类视频理解场景。研究不仅为视频分析提供了新工具,更开创了检测器预训练的新范式,对医疗视频分析、安防监控等领域具有重要应用价值。论文通讯作者Jae-Pil Heo指出,该方法的核心思想可扩展至其他时序信号检测任务,为多模态学习开辟了新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号