基于音频指令的语义感知人体运动生成:一种端到端的掩码生成Transformer框架

【字体: 时间:2025年05月27日 来源:Graphical Models 2.5

编辑推荐:

  针对现有音频-运动生成方法语义关联弱、交互不自然的问题,研究人员创新性地提出音频指令驱动的运动生成任务,开发了融合记忆检索注意力模块的掩码生成Transformer框架。通过WavLM音频编码和RVQ-VAE多级量化表征,实现了与文本方法相当的语义对齐(R Precision 0.426±0.007),生成效率提升50%,并构建了首个口语化音频-运动数据集(HumanML3D/KIT),为人机交互提供了更自然的控制范式。

  

在虚拟现实和元宇宙快速发展的时代,如何实现自然流畅的人机交互成为关键挑战。传统文本指令需要用户精确描述动作细节,而音乐/语音驱动的运动生成往往仅关注节奏匹配,导致语义控制力薄弱。针对这一瓶颈,国内研究人员在《Graphical Models》发表创新研究,提出通过音频指令直接生成语义对齐的人体运动,开创性地将语音交互的便捷性与运动生成的精确性相结合。

研究采用WavLM预训练模型提取音频特征,通过记忆检索注意力模块压缩长序列信号;构建包含掩码Transformer和残差Transformer的RVQ-VAE框架,实现基码层和残差码层的分级生成;利用ChatGPT改写HumanML3D/KIT数据集文本描述,通过Tortoise合成多说话人音频,建立首个口语化音频-运动配对数据集。

音频特征处理方面,研究发现WavLM提取的原始特征长度差异显著(最长超过3000帧),直接使用会导致计算效率低下。通过设计的记忆检索模块,将变长音频压缩为固定维度条件信号,在保持语义信息的同时使处理速度提升2.3倍。

运动生成框架包含三大创新:1)RVQ-VAE将运动序列量化为V+1层离散码本,通过基码捕获整体结构,残差码细化局部特征;2)掩码Transformer采用动态余弦调度策略(γ(x)=cos(πx/2)),在L次迭代中逐步预测基码层;3)残差Transformer引入层级指示嵌入,以前层码本为条件生成残差码。实验显示该框架FID降至0.126±0.005,显著优于级联式语音识别+文本生成方案。

数据集构建突破体现在:1)通过提示工程使ChatGPT将"一个人做后空翻"改写为"请完成后空翻动作"等口语指令;2)利用Tortoise合成包含12,696(KIT-ML)和87,384(HumanML3D)条样本的口语数据集,其训练模型在Top-3 R Precision上比原始数据集提升6.7%。

研究结论表明:1)音频指令可达到与文本相当的语义编码能力(Top-1 R Precision 0.426 vs 0.431);2)端到端框架较级联方法提速50%以上;3)口语数据集对性能提升至关重要,其MM Dist降低8.2%。该工作为开发自然交互的AGI系统提供了新范式,证实语音可直接作为运动生成的高效控制信号。

讨论部分强调三个维度意义:方法论上,首次将掩码生成范式引入音频-运动跨模态任务;应用上,解决了VR场景中实时交互的瓶颈问题;理论上,揭示了语音信号中隐含的运动语义表征能力。未来可探索多语言指令融合和个性化语音适配,进一步推动自然人机交互发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号