
-
生物通官微
陪你抓住生命科技
跳动的脉搏
几何视觉融合图神经网络GeoVis-GNN:视频中多人-物体交互识别的新方法与MPHOI-120数据集构建
【字体: 大 中 小 】 时间:2025年06月04日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对视频中多人-物体交互(HOI)识别存在的多模态特征融合不足、细粒度实体特征丢失等难题,研究人员提出几何视觉融合图神经网络(GeoVis-GNN),通过双注意力机制和依存实体图建模,在MPHOI-120等数据集上实现SOTA性能,为复杂场景下的交互理解提供新范式。
在智能监控、人机交互等领域,准确理解视频中人与物体的动态交互关系(Human-Object Interaction, HOI)至关重要。然而现有研究面临两大瓶颈:一是视觉特征易受遮挡干扰,而几何特征缺乏外观上下文,直接融合会导致模态优势流失;二是多人场景中部分参与者处于闲置状态(如等待、旁观),现有数据集难以刻画这种"并发部分交互"(Concurrent Partial Interaction)的复杂模式。
针对这些挑战,研究人员开发了几何视觉融合图神经网络(GeoVis-GNN),其创新性体现在三方面:首先采用自底向上的双注意力融合——先用图注意力网络(GAT)提取结构化几何嵌入,再通过通道注意力自适应融合视觉特征;其次设计依存实体图,同步建模显式空间交互和隐式上下文依赖;最后构建包含3人17类子活动的MPHOI-120数据集,其中20,100帧专门捕捉"部分参与"场景。该成果发表于《Expert Systems with Applications》。
关键技术包括:(1)基于GAT的时空几何特征嵌入;(2)跨模态通道注意力融合模块;(3)依存实体图的邻域特征聚合策略;(4)Gumbel-Softmax时序分割;(5)使用Azure Kinect SDK采集的RGB-D视频数据集,包含3人6类物体的多视角交互数据。
【双注意力特征优化】通过GAT学习人体关节点与物体包围盒的空间关联(式1-2),将时空几何特征gtst与Faster R-CNN提取的视觉特征vt′经MLP对齐后,采用全局平均池化(GAP)的通道注意力(式3-4)实现模态自适应加权,最终形成增强型实体表征g?vt。
【依存实体图建模】针对实体e,聚合其邻居u的特征(式5)并通过点积注意力(式7)计算交互权重,最终生成包含上下文信息的Fte。相比2G-GCN将几何特征整体融合,该方法在MPHOI-120上F1@10提升4.3%。
【多场景验证】在单人手部(Bimanual Actions)、双人协作(MPHOI-72)和三人部分交互(MPHOI-120)任务中,GeoVis-GNN均显著优于ASSIGN、CATS等方法。特别是在并发部分交互场景,F1@50达到46.6%,较基线提升9.5%,错误分析显示其对短暂动作(如快速抬手)的捕捉仍需改进。
该研究开创性地将几何-视觉融合从特征级提升到关系级,通过"实体表征优化→局部交互建模→全局依赖推理"的递进框架,解决了多模态特征对齐与复杂交互建模的协同难题。MPHOI-120数据集的发布填补了多人非连续交互数据的空白,其包含的深度信息还可支持3D姿态估计等延伸研究。未来工作将探索弱监督学习以降低标注成本,并拓展至开放环境下的交互理解。
生物通微信公众号
知名企业招聘