无监督的时间动作分割方法,结合样本区分训练和基于对齐的边界细化技术
《Neurocomputing》:Unsupervised temporal action segmentation with sample discrimination training and alignment-based boundary refinement
【字体:
大
中
小
】
时间:2025年10月07日
来源:Neurocomputing 6.5
编辑推荐:
针对无监督视频时序分割中的过分割问题,本文提出融合时空样本鉴别、多尺度建模和跨视频对齐的UTAS框架。通过差异化训练机制优化边界检测,结合自验证机制提升预测一致性,并利用视频间对齐策略合并冗余片段,在Breakfast、50Salads和YouTube Instructions三个数据集上显著优于现有方法。
在当今视频数据迅猛增长的时代,视频处理技术正变得越来越重要。特别是针对无剪辑视频的时序动作分割(Temporal Action Segmentation, TAS)任务,其目标是将视频内容划分为具有语义意义的动作片段,而无需依赖人工标注。这一技术在行为模式分析、动作识别以及动作计数等应用中发挥着基础性作用。然而,当前的TAS研究中,尤其是在无监督场景下的时序动作分割(Unsupervised Temporal Action Segmentation, UTAS)中,仍然面临诸多挑战。特别是在动作边界检测方面,现有方法存在两个关键的局限性,限制了其性能和应用范围。
首先,大多数基于边界检测的UTAS方法在训练过程中对所有帧采用统一的处理策略,而忽视了动作边界附近可能存在的显著视觉变化。这种处理方式容易导致网络对边界帧的过度拟合,从而引发过分割的问题。此外,这些方法通常仅依赖于单个视频内部的特征,而忽略了视频数据集中不同视频之间的潜在关联。这种做法可能会错过一些跨视频的有用信息,进而影响动作边界的准确定位。例如,视频之间可能共享某些子动作模式,如果能够有效利用这些信息,将有助于提升分割的准确性。
其次,由于不同动作可能具有不同的持续时间,现有的UTAS方法往往无法充分建模这些变化。因此,如何在不同时间尺度上进行有效的特征提取和建模,成为一个亟待解决的问题。此外,现有的方法在处理多尺度视频序列时,缺乏有效的融合机制,无法将不同时间尺度上的预测结果整合起来,从而影响最终的边界检测精度。
为了解决上述问题,本文提出了一种新的UTAS框架,该框架通过三个关键创新点,系统地减少了过分割现象,并提升了动作边界的定位精度。第一,我们引入了一种具有判别能力的训练机制,能够在时序域中区分边界帧和非边界帧,在空间域中区分运动像素和背景像素。通过采用加权训练策略,以及在不同时间尺度上进行建模,网络能够更有效地学习具有区分性的动作模式。第二,我们设计了一种自我验证机制,通过对不同输入序列的预测结果进行交叉验证,提升边界检测的准确性。这种机制能够利用更丰富的特征信息,减少因单一特征导致的误差。第三,我们提出了一种基于视频对齐的边界优化方法,通过构建参考视频集,并在视频数据集中建立跨视频的对应关系,从而实现动作片段的合并,进一步减少过分割带来的冗余问题。
为了验证所提出方法的有效性,我们在三个广泛使用的基准数据集上进行了实验,包括Breakfast、50Salads和YouTube Instructions(YTI)。这些数据集涵盖了多种不同的视频场景和动作类型,能够全面评估UTAS方法的性能。实验结果表明,所提出的方法在多个数据集上均取得了显著的性能提升。特别是在动作边界的定位精度方面,相比现有的方法,如Coseg、OTAS和ASOT,我们的方法在多个指标上均表现优异。
此外,我们还对数据集的结构和特点进行了详细分析。Breakfast数据集包含1,712个视频,总时长约为77小时,每个视频的平均长度为2,097帧,视频以15帧每秒的速度录制,分辨率为480×320。这些视频记录了52个受试者在厨房中进行的10种不同的活动,包括咖啡制作、三明治制作、煎蛋等。视频是从五个不同的摄像头视角录制的,包括webcam01、webcam02、cam01、cam02和立体摄像头。这些视频为研究动作模式提供了丰富的数据支持。
50Salads数据集则涵盖了50个不同的菜肴制作过程,每个视频的长度各不相同,但总体上提供了多样化的动作序列。该数据集主要用于评估动作分割和动作识别方法的性能,能够帮助研究者了解模型在处理复杂动作序列时的表现。YouTube Instructions数据集包含大量的视频教程,每个视频都涉及特定的任务和动作序列,为研究动作分割提供了丰富的场景和动作类型。
在实验设置方面,我们采用了多种评估指标,包括精确度、召回率和F1分数,以全面衡量所提出方法的性能。通过与现有方法的对比,我们发现所提出的方法在这些指标上均表现出色。此外,我们还对不同时间尺度上的建模效果进行了分析,验证了多尺度建模在提升动作边界检测精度方面的重要性。
在方法实现过程中,我们设计了一种多尺度的网络结构,该结构能够在不同时间尺度上进行特征提取和建模。这种设计使得模型能够适应不同动作的持续时间,从而提高分割的准确性。同时,我们引入了一种基于样本区分的训练机制,通过对边界帧和非边界帧进行加权处理,提升网络对动作边界的识别能力。这种机制能够减少因样本分布不均导致的过分割问题。
在自我验证机制的设计中,我们通过对不同输入序列的预测结果进行交叉验证,提升了边界检测的准确性。这种机制能够有效利用视频中的多尺度特征,减少因单一特征导致的误差。同时,我们还引入了一种基于视频对齐的边界优化方法,通过构建参考视频集,并在视频数据集中建立跨视频的对应关系,实现动作片段的合并,进一步减少过分割带来的冗余问题。
综上所述,本文提出了一种全新的UTAS框架,该框架通过三个关键创新点,有效解决了现有方法中存在的过分割问题,并提升了动作边界的定位精度。实验结果表明,所提出的方法在多个数据集上均取得了显著的性能提升,具有广泛的应用前景。未来,我们计划进一步优化该框架,探索更多潜在的应用场景,并在实际系统中进行部署和测试。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号