Est3D2Real:基于轻量级3D-真实数据嵌入网络的实时手语识别系统优化研究

【字体: 时间:2025年06月16日 来源:Pattern Recognition Letters 3.9

编辑推荐:

  针对视频姿态估计模型(如MediaPipe)输出的3D骨骼关节存在噪声和缺失问题,研究人员开发了轻量级Est3D2Real嵌入网络,通过映射运动捕捉系统(MCT)数据优化下游分类任务。实验表明,该方法在100词手语数据集上使分类准确率提升28%,为实时手语识别(rt-SLR)提供了可靠解决方案。

  

在计算机视觉与人工智能领域,实时手语识别(real-time Sign Language Recognition, rt-SLR)长期面临视频数据时空变异性和3D姿态估计不稳定的双重挑战。现有基于视频的3D姿态估计模型(3D-PEMs)如MediaPipe(MP)虽具有轻量化优势,但其输出的骨骼关节数据易受光照变化、遮挡等因素干扰,导致下游分类任务准确率骤降至70%以下。更棘手的是,当MP框架无法追踪肢体时会产生零值地标(landmarks),直接引发分类模型梯度消失问题。这种"垃圾进-垃圾出"的数据困境,严重制约着rt-SLR系统在实际场景中的应用可靠性。

为突破这一技术瓶颈,印度理工学院的研究团队创新性地提出Est3D2Real嵌入网络。该研究首次建立了视频估计姿态(MPEP)与运动捕捉系统(MCT)真实数据间的映射关系,通过四层全连接网络学习两种模态的潜在空间转换。实验采用KL3DISL、WLASL100和LSA64三个手语数据集验证,结果显示经Est3D2Real优化的分类模型RET3D和RPT3D准确率最高提升28%,相关成果发表于《Pattern Recognition Letters》。

关键技术包括:1) 同步采集MP框架视频估计与MCT系统真实3D关节数据;2) 设计含两个隐藏层的轻量网络,采用MSE损失函数最小化模态差异;3) 在100词印度手语数据集上验证嵌入效果;4) 构建下游分类模型评估性能提升。

【rt-SLR with MPEP and MCT】
研究团队开发了潜在空间映射模型,将MP输出的21个手部关键点与MCT的27个标记点建立关联。通过对比ASLLVD-Skeleton等数据集发现,Est3D2Real能有效补偿MP因遮挡丢失的关节数据。

【Experiments, results, and insights】
在WLASL100测试中,原始MPEP分类准确率仅68.2%,经Est3D2Real转换后提升至93.89%。特别值得注意的是,模型对食指远端关节(DIP)的还原误差控制在±1.3mm,显著优于传统插值方法。

【Conclusion】
Est3D2Real的创新性体现在三个方面:首先,其四层网络结构计算耗时仅2.7ms,完美适配rt-SLR的实时性需求;其次,通过MCT数据校正使分类模型RPT3D的泛化能力提升19.8%;最后,该方法为视频到3D的跨模态转换提供了普适性框架。

这项研究的突破意义在于,首次实现了消费级视频设备与专业运动捕捉系统的数据等效转换,使低成本构建高精度rt-SLR系统成为可能。未来可扩展至康复医疗、虚拟现实等领域,为多模态人机交互开辟新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号