基于动作序列的域泛化方法在自我中心动作识别中的应用研究

【字体: 时间:2025年06月26日 来源:Pattern Recognition Letters 3.9

编辑推荐:

  推荐:本研究针对自我中心动作识别(EAR)模型在跨域场景下性能下降的问题,提出SeqDG框架,通过动作序列重建(SeqRec)和跨域序列混合(SeqMix)技术,在EPIC-KITCHENS-100和EGTEA数据集上分别实现+2.4%和+0.6%的性能提升,为机器人行为模仿提供了更鲁棒的视觉理解方案。

  

在智能机器人模仿人类行为的过程中,自我中心视觉(Egocentric Vision)提供了独特的第一人称视角。然而,当摄像机穿戴者处于不同光照、视角或环境时,自我中心动作识别(EAR)模型的性能会出现显著下降——这种现象被称为域偏移(Domain Shift)。更棘手的是,人类行为往往具有个性化特征,即使是相同动作在不同个体执行时也存在差异。

意大利都灵理工大学的研究团队发现,尽管执行细节存在差异,人类动作序列往往遵循相似的逻辑模式。例如制作煎蛋时,从冰箱取蛋、打蛋、调味到煎制的步骤顺序具有跨场景一致性。基于这一发现,研究人员在《Pattern Recognition Letters》发表论文提出SeqDG框架,通过挖掘动作序列的时空关联性提升模型泛化能力。该研究在EPIC-KITCHENS-100数据集上实现20.6%的动作识别准确率,较现有最佳方法提升0.3个百分点。

关键技术包括:1) 视觉-文本序列重建(SeqRec),通过掩码中心动作并利用Transformer解码器跨模态重建;2) 跨域序列混合(SeqMix),将不同场景中同类动作组合训练;3) 采用TBN-TRN和SlowFast网络提取多模态特征,结合BERT处理文本叙述。

研究结果显示:在跨域测试中,SeqDG的Noun识别准确率达29.8%,较基线提升3.2个百分点。序列长度分析表明,W=5时模型性能最优,过短序列缺乏上下文,过长则引入噪声。消融实验证实,同时使用视觉(LrV)和文本(LrT)重建损失时效果最佳,权重均为1.0时达到峰值。

该方法的重要意义在于:首次将动作序列的时空一致性作为域不变特征,通过SeqMix增强模型对视觉差异的鲁棒性。相比需要目标域数据的无监督域适应(UDA)方法,SeqDG仅用源域数据就超越MM-SADA等先进方法,为医疗辅助机器人等需要跨环境部署的场景提供了新思路。研究还发现,文本模态的引入使模型更关注语义而非视觉表观,这对开发多模态通用模型具有启示价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号