用于少量样本动作识别的多时相集成方法

《Expert Systems with Applications》:Multi-temporal ensemble for few-shot action recognition

【字体: 时间:2025年09月24日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出基于多时间集成的少样本行动识别方法MTE,通过构建不同长度的视频帧子序列,结合短时时空建模模块STMM,有效捕捉长短期时序关系,在四个基准数据集上优于26种现有方法。

  
陈江|孙建龙|刘浩东|关海珍
江苏大学计算机科学与通信工程学院,中国镇江

摘要

少样本动作识别(FSAR)旨在仅使用少量标记样本来识别新的动作类别。由于标记数据的稀缺,FSAR模型存在高方差和低置信度的问题。为了解决这个问题,本文首次将集成学习引入FSAR领域,利用多种时间动作表示的多样性来生成基础模型。具体来说,我们提出了一种多时间集成(MTE)方法用于FSAR。通过组合不同长度的视频帧子序列(即元组),MTE创建多组动作表示,并基于这些表示生成基础模型。所有基础模型共享一个嵌入网络来学习帧级特征。所提出的方法能够自适应地捕捉不同长度和速度的时间关系,同时避免了训练多个深度神经网络的计算成本。此外,我们引入了一个短期时间建模模块(STMM),该模块使用自注意力来突出变化较大的帧,从而增强帧级的短期时间表示。该方法已在四个基准数据集上进行了验证。广泛的实验结果表明,MTE的性能优于26种最先进的FSAR方法。源代码可在https://github.com/CharmainCahill/MTE.git获取。

引言

动作识别在各种计算机视觉任务中得到了广泛应用,包括自动驾驶、监控系统和体育分析等。在过去的十年中,基于深度神经网络(DNN)的动作识别取得了显著进展(Kong和Fu,2022年)。然而,DNN的数据驱动方法经常面临高标记成本或隐私问题,导致标记数据稀缺。作为对此问题的回应,少样本动作识别(FSAR)(Perrett等人,2021年;Xia等人,2023年;Huang等人,2024年)引起了越来越多的关注,因为它旨在从少量标记数据中学习模型以识别新的动作类别。
动作视频表现出不同的动作持续时间和时间依赖性,这使得时间建模变得具有挑战性。大多数先前的研究侧重于建模长期时间关系,而短期时间关系则研究较少(Chen等人,2025年)。受到SloshNet(Xing等人,2023年)工作的启发,我们引入了一个短期时间建模模块(STMM),该模块使用差异性注意力来分析每个帧与其直接相邻帧之间的差异,从而增强帧级的短期时间特征。在视频层面,TRX(Perrett等人,2021年)及其后续工作(Xing等人,2023年;Guo等人,2024年)构建了有序帧的子序列(即元组)来自适应地建模时间关系。元组的长度称为其基数,所有相同基数的可能元组被整合起来表示具有特定容量的时间关系。然而,选择最优基数是一项具有挑战性的任务,因为它涉及到在建模时间关系时的完整性和灵活性之间的权衡。
受到集成学习思想的启发(Yang等人,2023年),本文提出了一种多时间集成(MTE)方法,该方法使用多组动作表示来构建基础FSAR模型。集成学习旨在利用基础模型之间的多样性来提高泛化能力(Yang等人,2023年;Yu等人,2023年)。最近,它已被应用于解决少样本学习遇到的高方差和低置信度问题(Liu等人,2020年;Yang等人,2023年;Jiang等人,2025年)。典型的方法是训练多个DNN进行特征嵌入,但这会引入显著的学习成本。虽然一些方法通过使用快照(Padmanabhan等人,2023年)或任务特定的超参数(Liu等人,2020年)来降低成本,但这通常会以牺牲多样性为代价。相比之下,我们的方法使用单个嵌入网络来学习帧级特征,并利用元组基数来生成多个视频级动作表示以构建基础模型。这种方法在尽可能保留多样性的同时显著降低了学习成本。
具体来说,MTE在帧级别对时空关系进行建模,并为每个动作视频X生成一个帧序列XT。然后,从XT中提取具有不同基数的多个元组集合,以创建X的不同动作表示。最后,我们为每个表示构建一组原型网络,并组合所有原型网络进行动作识别。所提出的方法有效地结合了多个视频级时间关系,增强了具有不同长度和速度的动作表示。本文的主要贡献总结如下:
  • 1)
    我们提出了一种多时间集成(MTE)方法,该方法使用多组动作表示来构建基础FSAR模型。据我们所知,这是首次将集成学习引入FSAR领域。
  • 2)
    通过组合不同基数的元组,MTE引入了多个视频级动作表示来构建基础模型。它可以自适应地建模视频级时间关系,从而增强具有不同长度和速度的动作表示。
  • 3)
    受到SloshNet(Xing等人,2023年)的启发,我们引入了一个短期时间建模模块(STMM),该模块利用注意力机制来突出与其直接相邻帧相比变化较大的帧。这个模块增强了帧级的短期时间特征表示。
  • 4)
    我们进行了广泛的实验来验证MTE的有效性。与26种最先进的FSAR方法相比,MTE在四个基准数据集上取得了更好的性能。
  • 相关工作

    相关工作

    近年来,少样本学习(FSL)(Song等人,2023年)取得了显著进展。与已被广泛研究的图像不同,动作视频由于额外的时间维度而更加复杂(Perrett等人,2021年;Xing等人,2023年;Ma等人,2023年)。因此,在少样本动作识别(FSAR)中建模时间关系成为一个关键挑战。通常,卷积神经网络(CNN)用于提取空间特征,然后进行建模

    问题阐述

    FSAR的目标是在一个训练数据集Dtrain上训练一个模型,使其能够仅使用少量标记的视频样本来识别测试数据集Dtest中的新动作。在每个剧集中,随机选择C个动作类别,对于每个类别,选择K个标记样本来形成支持集。这样得到的支持集包含C×K个标记样本。然后通过从剩余样本中随机选择一个视频来选择查询集Q

    数据集

    所提出的方法在四个基准数据集上进行了评估,这些数据集描述如下:
  • 1.
    UCF101(Soomro等人,2012年):该数据集包含13,320个来自YouTube的真实动作视频,分为101个不同的动作类别。主要动作类别包括人机交互、身体运动、人际交互、演奏乐器以及体育。我们使用70/10/21的比例将UCF101数据集划分为训练集、验证集和测试集
  • 2.
    HMDB51(
  • 结论

    本文将集成学习引入FSAR领域,并提出了一种多时间集成(MTE)方法用于FSAR。通过提取不同的视频帧子序列,MTE构建了多个动作表示来生成基础模型。这种方法能够捕捉具有不同长度和速度的时间关系,同时避免了训练多个深度神经网络的需要。此外,我们提出了一个短期时间建模模块(STMM)来增强短期

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本研究得到了国家自然科学基金(NSFC:U1836220)的关键项目支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号