RelPosGAR:一种基于层次结构的相对位置感知交互建模方法,用于在弱监督条件下进行基于骨架的群体活动识别
《Pattern Recognition》:RelPosGAR: Hierarchical Relative Position-Aware Interaction Modeling for Weakly Supervised Skeleton-Based Group Activity Recognition
【字体:
大
中
小
】
时间:2026年02月10日
来源:Pattern Recognition 7.6
编辑推荐:
本文提出RelPosGAR框架,通过多维度旋转位置编码(M-RoPE)和自注意力机制(RelPosAttn)建模骨骼关节与人员层面的相对空间关系,设计IntraSkeRefiner优化关节交互,GroupActorReasoner建模人员交互,实现弱监督下的群组活动识别。
李林东|青林波|陶柳仪|王平宇|陈洪刚|欧文·诺埃尔·牛顿·费尔南多|林伟西
四川大学电子与信息工程学院,610065,中国
摘要
基于骨架的群体活动识别(GAR)作为一种高效且有效的方法,用于模拟集体人类行为,它利用骨架数据的紧凑性和低维度特性显著降低了计算开销,同时保留了必要的结构和运动线索。在监督较弱的条件下——仅提供视频级别的活动标签——挑战在于学习能够同时捕捉精细的骨架内部关节运动和人际交互动态的判别性表示,而无法访问每个演员的详细注释。现有方法通常关注全局骨架特征或成对交互,但往往忽略了相对空间配置的显式建模,这对于细化个体表示和准确推理人物间关系至关重要。为了解决这一限制,我们提出了RelPosGAR,这是一个以RelPosAttn为中心的层次化框架,RelPosAttn是一种新颖的自注意力机制,它结合了多维旋转相对位置嵌入以实现空间感知的建模。RelPosGAR包括两个专用模块:IntraSkeRefiner,它对每个骨架内的关节坐标应用RelPosAttn来捕捉局部结构依赖性并细化姿态表示;GroupActorReasoner,它对人物级坐标应用RelPosAttn来根据他们在底层坐标系中的相对位置建模人际交互。这种两阶段流程首先使用关节坐标细化个体姿态表示,然后使用个体坐标建模人际交互,从而在监督较弱的情况下实现有效的层次化推理。在基准数据集上的广泛实验表明,RelPosGAR取得了最先进的性能,验证了跨多个空间层次的统一、基于相对位置感知的交互建模的有效性。源代码和数据将在
https://github.com/li-lindong/RelPosGAR发布。
引言
群体活动识别(GAR)是视频理解中的一个重要问题,在智能监控、社会行为分析和体育赛事解释中有着广泛的应用。与个体动作识别和人际交互识别[1]、[2]、[3]不同,GAR旨在识别一组人在一段时间内的集体活动。如图1所示,这需要不仅建模个体动作,还要建模它们的时空交互。因此,核心挑战在于有效捕捉和推理群体成员之间的动态关系结构。
主流的GAR方法仍然依赖于RGB视频数据[4]、[5]。这些方法通常首先使用预训练的卷积神经网络(CNN)提取特征图。根据得到的特征图和检测到的个体群体成员的边界框[6],然后应用RoIAlign模块来获取实例级特征。最后,使用循环神经网络(RNN)[7]、图神经网络(GNN)[8]、Transformer[9]或其变体来建模和融合群体成员之间的时空交互,形成群体级表示以进行分类。然而,RGB视频数据包含大量冗余信息,这阻碍了成员特征的有效提取。同时,RGB视频的高分辨率和高帧率导致了巨大的计算成本。这些限制限制了基于RGB的GAR方法的实际应用。
为了克服这些限制,一些研究人员开始仅使用群体成员的骨架数据来研究GAR。这些方法[10]、[11]仍然遵循基于RGB的方法的一般范式:它们首先通过线性投影、GNN或类似技术从骨架数据中提取人物级特征表示,然后建模群体成员之间的交互以进行群体活动分类。然而,这些方法通常以骨架关节坐标为输入,并隐含地关注局部关节交互,使得难以捕捉关节之间的相对位置关系并学习具有判别性的骨架特征。这一限制进一步影响了人物级别的交互推理,最终阻碍了准确的群体活动分类。因此,这些方法依赖于带有个体动作标签的完全监督学习来增强骨架特征的表示能力。然而,在实际应用中获取人物级动作注释通常成本较高,限制了这些方法的实际部署。
总体而言,现有方法不仅忽略了交互元素(如骨架关节或群体成员)之间的空间关系,也难以显式建模它们的相对位置关系。如图2所示,社交场景中的对话群体经常形成圆形F形结构;类似地,团队运动中的进攻和防守阵型也表现出不同的结构模式,每个个体的骨架都由其关节定义了结构化的配置。这些结构——由交互元素(人或骨架关节)形成——与正在进行的活动或动作类型密切相关。关键的是,它们不依赖于这些元素在物理场景中的绝对位置,而仅依赖于它们的相对位置或元素间的距离。基于这些理论见解和实证观察,我们认为在捕捉他们的交互时,显式建模人物或关节之间的相对空间关系是必不可少的。
因此,本文重点关注交互元素之间相对位置关系的显式建模,并提出了RelPosGAR,这是一个基于RelPosAttn的层次化框架,RelPosAttn是一种将多维旋转位置嵌入集成到自注意力中的新颖注意力机制,以实现空间感知的推理。具体来说,RelPosGAR包括两个专用模块:IntraSkeRefiner,它对每个骨架内的关节坐标应用RelPosAttn来捕捉局部结构依赖性并细化姿态表示;GroupActorReasoner,它对人物级坐标(例如身体中心)应用RelPosAtnn来根据它们在输入坐标系中的相对空间配置建模人际交互。这种两阶段流程首先使用关节坐标细化个体姿态表示,然后使用个体坐标建模人际交互,从而在监督较弱的情况下实现有效的层次化推理。
总结来说,我们的主要贡献有三个方面:
•我们提出了一种基于相对位置的注意力(RelPosAttn)机制,该机制通过将多维旋转位置嵌入与自注意力机制相结合,显式建模交互元素(骨架内的关节和群体内的人物)之间的相对空间关系。这在有限的监督下实现了更准确和空间感知的交互推理。
•我们设计了RelPosGAR,这是一个在监督较弱的情况下的层次化框架,它统一了两个模块:IntraSkeRefiner用于关节级别的结构细化,GroupActorReasoner用于人物级别的关系推理。这种设计使得个体表示逐步增强,并使用互补的坐标粒度有效建模群体动态。
•广泛的实验结果表明,我们的方法不仅取得了最先进的性能,而且在监督较弱的设置下也保持了强大的结果。我们还通过实验分析发现,后期时间融合策略产生了更具判别性的群体级表示,并对实际应用中常见的ID切换问题表现出鲁棒性。
相关工作
相关工作
GAR在目标和建模要求上与个体动作识别有根本不同。后者侧重于描述单个人的时空动态,而GAR不仅需要捕捉个体内的运动模式,还需要捕捉人际交互和集体语义。基于RGB和基于骨架的GAR方法在应对这些挑战方面具有显著的概念和结构相似性。为了提供一个连贯的概述,我们首先回顾
我们的方法
我们的方法基于相对位置感知注意力(RelPosAttn)机制,该机制增强了交互元素(即骨架关键点和群体成员)之间的交互建模。因此,本节首先介绍传统的位置编码和我们提出的多维旋转位置编码(M-RoPE),然后详细阐述RelPosAtnn机制,最后介绍基于骨架的RelPosGAR的整个框架,包括Intra-Skeleton Refiner
实验
我们首先介绍数据集、评估指标和实现细节。接下来,我们将我们的方法与现有的最先进(SOTA)方法进行比较,并进行消融研究以评估IntraSkeRefiner和GroupActorReasoner模块的贡献。我们进一步研究了不同输入空间坐标对模型性能的影响。最后,为了突出我们方法的优越性,我们在不同的监督范式下评估了其有效性
结论
基于提出的具有显式相对距离推理的RelPosAtnn机制,本研究设计了IntraSkeRefiner和GroupActorReasoner模块,以加强群体层面的交互推理和人物层面的交互推理。全面的实验验证了这两个模块的有效性,并证明即使在监督较弱的情况下,所提出的方法也保持了强大的鲁棒性,始终超越了现有的最先进方法。
CRediT作者贡献声明
李林东:撰写——原始草稿、可视化、验证、软件、方法论、概念化。青林波:撰写——审稿与编辑、监督、资金获取、概念化。陶柳仪:撰写——审稿与编辑。王平宇:撰写——审稿与编辑、资金获取。陈洪刚:撰写——审稿与编辑。欧文·诺埃尔·牛顿·费尔南多:撰写——审稿与编辑。林伟西:撰写——审稿与编辑。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了中国国家自然科学基金[项目编号62301346]、中国西藏自治区科技项目[项目编号XZ202501ZY0064]以及中国国家留学基金委(CSC)[项目编号202406240216]的支持。我们感谢Mohan Chen在优化图表方面提供的宝贵帮助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号