《Pattern Recognition》:M3-HOI: Multi-Modal Mining Network for Video-based Human-Object Interaction Recognition
编辑推荐:
针对视频HOI识别中存在的遮挡、细粒度动作区分和跨环境泛化能力不足的问题,提出M3-HOI框架,融合视觉、几何和文本信息,通过多几何图、几何嵌入模块和跨模态融合策略提升性能,并在三个数据集上验证优于现有方法。
吴博宏|高青
电子与通信工程学院,中山大学,深圳,518107,中国
摘要
人机交互(HOI)识别是解读人类意图的基本方面,对许多下游应用至关重要。尽管其重要性不言而喻,但基于视频的HOI识别仍然面临一些持续存在的问题,如频繁的遮挡、细粒度子活动类别之间的微妙差异,以及模型在异构环境中的泛化能力有限。这些因素共同阻碍了当前识别方法的准确性。为应对这些挑战,本研究探索了HOI模式与多模态数据之间的内在关系,提出了一种基于时空图的新型多模态挖掘网络(M3-HOI),用于基于视频的HOI识别。具体而言,该方法引入了一个多几何描述图和一个几何嵌入模块,将人体姿态信息与物体关键点数据协同整合,形成统一的几何特征表示。此外,还开发了一个字幕引导模块,以提高模型在复杂场景中的泛化能力。随后构建了一个时空图,通过消息聚合模块促进跨模态信息的有效融合。在MPHOI-72、Bimanual Actions和CAD-120数据集上进行的广泛实验评估表明,M3-HOI在多种场景中的性能均优于现有的最先进方法,从而证实了其在解决常见识别挑战方面的有效性。
引言
人机交互(HOI)识别是计算机视觉中的一个关键研究领域,专注于检测和分析图像或视频中人类与物体之间的交互关系。作为使计算机理解人类活动的重要组成部分,HOI识别显著推动了从感知层面到认知层面的研究进展。它在多个领域[1]、[2]、[3]中展示了广泛的应用,包括安全监控、虚拟现实和人机交互。
近年来,提出了许多针对静态图像的HOI识别方法[4],在该领域取得了显著进展。然而,现实世界中的许多交互动作本质上涉及时间动态,例如“接近”、“后退”等。静态图像缺乏HOI的时间信息,这限制了准确区分动态动作的能力。因此,基于视频的HOI识别变得至关重要。
基于视频的HOI识别通常涉及时间分割和子活动识别。与基于图像的HOI识别不同,基于视频的HOI方法的评估依赖于识别子活动片段,其中“子活动”指的是数据集中标注的特定交互间隔。模型准确性通过评估预测的子活动片段与整个时间序列中的真实注释之间的对应程度来衡量。有效的基于视频的HOI识别需要建模三个组成部分:空间定位、时间动态和交互分类。这种多方面的要求使得基于视频的HOI识别变得复杂得多。因此,由于单模态视觉方法在捕捉全面的环境和时间线索方面存在固有局限性,它们往往难以实现鲁棒和准确的识别。
多模态融合被广泛认为是解决单模态方法局限性的有前景策略。人体姿态作为人类运动的抽象表示,被广泛用作视觉数据的有效补充模态[5]、[6]。然而,这些方法通常使用单一的图结构来编码姿态数据,这限制了它们充分利用人体骨架与物体关键点之间拓扑关系的能力。
语义模态作为视觉特征与外部知识之间的中介,使模型能够稳健地理解复杂场景中的交互。尽管近年来视觉语言模型(VLM)取得了显著进展,但其庞大的参数数量使得针对下游任务的微调在计算上变得不可行。尽管一些先前的研究探索了使用冻结的VLM来提取特征以支持学习[7],但它们大多忽略了不同模态之间的交互。
此外,多模态HOI识别中的一个关键挑战是跨模态数据的固有异质性。它在不同模态之间表现出互补信息和冗余噪声的双重特征[8]、[9]。大多数现有的多模态HOI方法依赖于简单的融合策略,如直接特征连接或固定权重求和。这些方法无法根据输入特定的上下文动态调整每种模态的贡献,导致在模态之间存在冲突时性能不佳。例如,在RGB数据严重遮挡但骨架数据仍然完整的情况下,基于连接的方法仍然将两种模态视为同等可靠。这降低了骨架数据在噪声视觉信号中的表示能力。
为了解决这些挑战,本文提出了一种基于时空图的多模态挖掘网络(M3-HOI),用于视频HOI识别。M3-HOI的框架如图1所示。这是一种基于多模态融合的方法,通过整合视觉、几何和文本语义信息来提高HOI识别的鲁棒性。提出了一种多几何描述图和一个几何嵌入模块,以捕捉几何信息与交互之间的依赖关系。为了建立文本和视觉信息之间的关联,还提出了一种字幕引导模块。最后,本文采用以视觉为中心的时空图来提取时间特征,同时利用多种融合方法和消息聚合模块来促进不同特征之间的有效融合。
结果表明,M3-HOI在三个数据集上取得了卓越的性能:MPHOI-72数据集、CAD-120数据集和Bimanual Actions数据集。我们还进行了广泛的消融研究,以评估M3-HOI的核心组成部分。本文的主要贡献如下:
- •
本文提出了M3-HOI,该框架通过整合视觉、几何和文本语义信息来提高识别性能。
- •
本文设计了一个几何嵌入模块、一个字幕引导模块和一个消息聚合模块,以全面探索多样化的模态信息及其特征,从而实现有效的多模态融合。
- •
在MPHOI-72、CAD-120和Bimanual Actions数据集上进行的广泛实验表明了M3-HOI的优越性及其设计的合理性。
本文的其余部分组织如下。第2节回顾了HOI识别的相关工作并介绍了我们的动机。第3节详细描述了我们的方法论和模型架构。第4节展示了全面的实验并分析了我们模型所实现的性能改进。最后,第5节概述了我们的主要贡献和结论,并讨论了未来研究的潜在方向。
部分摘录
基于图像的方法
早期的研究主要集中在单帧图像中定位交互区域。2018年,Gkioxari等人[10]提出了InteractNet。这是第一个利用预训练的Faster R-CNN[11]来检测人类和物体边界框的框架。通过专用交互分类器整合视觉特征和空间关系,InteractNet为静态HOI识别建立了一个基准流程。然而,这种逐实例遍历的方法
方法论
M3-HOI是一个用于基于视频的HOI识别的两阶段网络,通过跨多种模态挖掘视觉、几何和文本语义信息来完成复杂的基于视频的HOI识别任务。在第一阶段,我们在目标HOI数据集上训练现成的物体检测器,同时直接利用预训练的姿态估计器和大型语言模型来提取人体关键点特征和交互语义嵌入。这一阶段输出标准化的检测框,
数据集
我们遵循了当前主流的基于视频的HOI识别方法,并在三个数据集上进行了实验,包括MPHOI-72 [5]、Bimanual Actions [37] 和 CAD-120 [38]。
MPHOI-72。这是一个包含多人多物体交互场景的数据集。由于该数据集中的大多数帧都有人体和物体之间的身体遮挡,因此可以用来验证模型对遮挡问题的鲁棒性。其中包含6种不同的物体、3种活动类型和13
结论
为了解决基于视频的HOI识别的局限性,本文提出了一种名为M3-HOI的两阶段多模态融合框架。它整合了三种不同的模态信息,以利用互补信息实现稳健的HOI理解。对于几何信息,多几何描述图和几何嵌入模块捕获了全面的几何细节,从而提高了模型对遮挡的鲁棒性及其对空间分布的理解
CRediT作者贡献声明
吴博宏:撰写——原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据整理。高青:撰写——审阅与编辑、监督、项目管理、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了广东省基础与应用基础研究基金(项目编号2025A1515011954)和深圳市科技创新计划(项目编号ZDCY20250901100201002)的支持。