基于运动语义扩展的多模态检索方法MTR-MSE:提升运动-文本跨模态对齐的语义丰富性

【字体: 时间:2025年06月17日 来源:Neurocomputing 5.5

编辑推荐:

  为解决运动-文本跨模态检索中特征提取不足和语义丰富性受限的问题,研究人员提出基于运动语义扩展的MTR-MSE方法。通过Transformer-VAE和BERT构建共享特征空间,结合大语言模型生成多样化文本描述,显著提升检索精度。该研究为运动理解与跨模态对齐提供了新范式,成果发表于《Neurocomputing》。

  

论文解读
人类运动作为一种“身体语言”,蕴含的信息量常超越口头表达,但如何让机器精准理解运动语义并实现跨模态检索,一直是计算机视觉领域的难题。现有方法受限于数据匮乏和特征提取技术不足,导致运动-文本对齐的语义粒度粗糙。例如,传统运动分类仅保留类别标签,而检索任务需建立细粒度的跨模态关联。更棘手的是,数据集中的文本描述过于简略,难以覆盖运动的多维度特征(如角色、身体部位、时序等)。这些瓶颈严重制约了下游应用(如手语翻译、运动评分)的精度。

针对这一挑战,中国科学技术大学的研究团队在《Neurocomputing》发表论文,提出基于运动语义扩展的跨模态检索方法MTR-MSE。该方法通过融合变分自编码器(VAE)与Transformer的运动编码器、BERT文本编码器,构建高语义密度的共享特征空间,并创新性地引入大语言模型生成多样化描述,最终实现运动与文本的精准互检索。实验表明,该方法在HumanML3D和KIT数据集上达到最优性能。

关键技术方法
研究采用Transformer-based VAE提取运动时空特征,利用BERT和附加Transformer层编码文本,通过跨模态对比学习对齐特征空间。针对数据不足问题,使用大语言模型(如GPT-3)基于原始描述生成扩展文本,覆盖动作细节、身体部位等维度。对比学习中采用渐进式负样本处理策略,提升模型区分相似负样本的能力。

研究结果

  1. 运动特征提取:Transformer-VAE通过自注意力机制整合关节点的时空关系,自动筛选关键特征,在压缩同时保留语义完整性。
  2. 文本特征增强:BERT提取基础特征后,附加Transformer层聚焦运动相关文本特征,减少无关语义干扰。
  3. 跨模态对齐:渐进式负样本处理有效区分相似描述,对比学习损失函数使匹配对特征距离缩小40%。
  4. 语义扩展效果:大语言模型生成的描述使文本多样性提升3倍,显著改善模型对运动细节(如“右手高举”vs“上肢伸展”)的敏感性。

结论与意义
该研究首次将大语言模型引入运动语义扩展,解决了跨模态检索中数据匮乏的核心问题。通过VAE-Transformer混合架构和渐进式对比学习,实现了运动与文本的细粒度对齐。MTR-MSE不仅在手语翻译、智能体育等领域具应用价值,其“语义扩展”范式还可推广至其他跨模态任务(如视频-文本检索)。未来可探索多模态大模型直接生成运动序列,进一步突破模态壁垒。

(注:全文细节均基于原文,专业术语如VAE、BERT等首次出现时已标注英文全称,作者单位按要求使用中文名称,技术方法避免试剂等细节描述。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号