多视角动作识别的躯干-分支对比网络:基于可变形聚合与全局细节互补的创新框架

【字体: 时间:2025年06月16日 来源:Pattern Recognition 7.5

编辑推荐:

  针对多视角动作识别中全局特征融合与局部细节保留的难题,中国科学院团队提出躯干-分支对比网络(TBCNet),通过多视角可变形聚合(MVDA)模块实现跨视角时空特征融合,结合加权对比损失强化类间差异感知。该研究在NTU-RGB+D等4个数据集上达到SOTA性能,为智能监控系统提供高效解决方案。

  

在智能监控和虚拟现实领域,多视角动作识别(Multi-view Action Recognition)技术正面临关键瓶颈:现有方法要么过度依赖单视角精细特征导致全局关联缺失,要么在跨视角融合时牺牲了判别性局部细节。这种矛盾在仅依赖RGB模态的实际场景中尤为突出——当摄像头覆盖角度差异大时,传统方法如条件随机场(DANet)或解耦表示学习(DRDN)难以同时满足特征鲁棒性和计算效率的需求。

针对这一挑战,中国科学院团队在《Pattern Recognition》发表的研究提出革命性解决方案——躯干-分支对比网络(TBCNet)。该框架创新性地模拟人类认知机制:先建立整体印象(躯干块),再补充细节(分支块)。通过多视角可变形聚合(MVDA)模块的全局聚合组件(GAM)和复合相对位置偏置(CRPB),系统实现了跨视角时空特征的自适应对齐;而独创的加权对比损失函数,则通过正负样本差异化加权机制,将模型对细微动作差异的敏感度提升23.6%。

关键技术方法
研究采用NTU-RGB+D 60/120、PKU-MMD和N-UCLA四个基准数据集验证性能。技术核心包含:(1)MVDA模块中的可变形注意力机制,通过GAM提取关键空间特征;(2)CRPB编码器区分视角内/间位置关系;(3)分支块采用ResNet-50提取视角特异性特征;(4)加权对比损失设置α=0.7/β=1.3的正负样本权重比。

研究结果
3.1 多视角可变形聚合
MVDA模块在NTU-RGB+D 120跨主体协议下达到89.4%准确率。GAM通过空间显著性权重图,将关键关节点的特征贡献度提升1.8倍;CRPB通过分离式位置编码,使交叉视角动作关联误差降低31%。

3.2 躯干-分支对比学习
加权对比损失在PKU-MMD数据集上使类间差异的F-score提升17.2%。消融实验显示,当分支块采用3D-CNN时,推理速度较基线快2.3倍且精度损失<0.5%。

4.1 数据集验证
在N-UCLA的三视角设定下,TBCNet以94.1%准确率超越ViewCLR 6.2个百分点。特别在"跌倒检测"等医疗相关动作中,误报率降低至3.7%。

结论与意义
该研究开创性地将认知科学原理引入多视角学习,其双阶段框架(全局聚合-细节补充)为计算资源受限场景提供新范式。MVDA模块的变形注意力机制突破传统固定感受野限制,而加权对比损失设计为细粒度识别任务提供通用优化思路。实际应用中,分支块的可裁剪特性使系统在边缘设备部署时内存占用减少58%,这对智慧养老、智能交通等实时性要求高的场景具有重要实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号