基于联合数据集学习与跨模态一致性正则化的文本-运动检索方法研究
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
本文提出了一种创新的文本-运动检索框架,通过联合数据集学习(JDL)和跨一致性对比损失(CCCL)有效解决了因数据稀缺导致的模型泛化能力不足问题。作者引入改进的MoT++运动编码器,利用时空注意力机制提升骨架序列的特征提取能力。实验表明,该方法在KITML和HumanML3D等基准数据集上显著优于现有技术(如TMR、Rehamot),尤其在跨数据集和联合训练场景下表现出更强的鲁棒性。该研究为多模态检索提供了新的正则化思路和可复现的代码库。
随着姿态估计方法的成熟,从普通视频中提取人体运动并转化为结构化的3D骨架序列已成为可能。这种时空运动数据在远程医疗、体育分析、智能安防等领域展现出巨大应用潜力。然而,如何基于内容高效检索此类数据仍是一个挑战。传统基于示例的检索方法存在查询样本难以获取的局限性,这推动了文本到运动检索任务的发展——即通过自然语言描述搜索相关的运动序列。
文本编码器方面,研究主要采用预训练语言模型(如BERT、CLIP)或专门设计的ACTORStyleEncoder来提取文本特征。运动编码器则经历了从卷积网络、循环网络到Transformer的演变,近期工作更关注自监督学习和多模态融合策略。在跨模态处理方面,文本-运动生成任务(如MDM、MotionDiffuse)已取得进展,但检索任务的相关研究相对较少,目前仅有TMR和Rehamot等少数开创性工作。
本研究核心贡献包含两大模块:改进的运动编码器MoT++和新型损失函数CCCL。MoT++在原有MoT基础上优化了时空注意力机制,通过因子化编码器分别处理关节空间关系和时间动态变化,同时保留足部和根关节的关键信息。其输入处理流程首先通过独立MLP将23个关节聚合为7个身体部位特征,再通过时空Transformer层提取层次化特征。
CCCL损失函数的设计旨在缓解数据稀缺问题。除了标准的跨模态对比损失(InfoNCE),它引入了单模态一致性约束:文本-文本相似性和运动-运动相似性。通过KL散度对齐跨模态和单模态的分数分布,并利用预训练文本模型(MPNet)作为教师模型提供监督信号。损失函数采用线性调度策略,在训练初期依赖教师模型指导,后期逐步过渡到自监督模式。
实验在KITML、HumanML3D和Motion-X三个数据集上进行,采用四种评估协议(All/带阈值/差异子集/小批量)。在联合训练场景下,MoT+++CCCL组合在KITML测试集上达到Rsum=550.60,较基线方法提升显著。跨数据集测试(HumanML3D训练→KITML测试)结果更显示其卓越的泛化能力(Rsum=527.4)。消融实验验证了CCCL中超参数λ调度策略的有效性,显示40-100周期的线性过渡最优。此外,运动-运动检索实验证明该方法在单模态任务中也具有竞争优势。
定性分析展示了模型对复合动作(如"弯曲膝盖行走")和时序动作(如"前进→右转→前进")的精准捕捉能力。失败案例多源于对细微文本修饰词(如"僵硬地")的理解不足。该方法计算效率优异,在A100GPU上单轮训练仅需1.5-2分钟,推理时可通过预计算特征实现实时检索。
本研究通过联合数据集学习和跨模态正则化,显著提升了文本-运动检索的泛化性能。未来工作可整合视频模态、探索语言-模态对学习(如LanguageBind),或引入双模态正则化策略进一步突破性能瓶颈。所开源代码库为后续研究提供了可复现的基准。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号