基于音频指令的语义感知人体运动生成：一种端到端的掩码生成Transformer框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月27日 来源：Graphical Models 2.5

编辑推荐：

　　针对现有音频-运动生成方法语义关联弱、交互不自然的问题，研究人员创新性地提出音频指令驱动的运动生成任务，开发了融合记忆检索注意力模块的掩码生成Transformer框架。通过WavLM音频编码和RVQ-VAE多级量化表征，实现了与文本方法相当的语义对齐（R Precision 0.426±0.007），生成效率提升50%，并构建了首个口语化音频-运动数据集（HumanML3D/KIT），为人机交互提供了更自然的控制范式。

在虚拟现实和元宇宙快速发展的时代，如何实现自然流畅的人机交互成为关键挑战。传统文本指令需要用户精确描述动作细节，而音乐/语音驱动的运动生成往往仅关注节奏匹配，导致语义控制力薄弱。针对这一瓶颈，国内研究人员在《Graphical Models》发表创新研究，提出通过音频指令直接生成语义对齐的人体运动，开创性地将语音交互的便捷性与运动生成的精确性相结合。

研究采用WavLM预训练模型提取音频特征，通过记忆检索注意力模块压缩长序列信号；构建包含掩码Transformer和残差Transformer的RVQ-VAE框架，实现基码层和残差码层的分级生成；利用ChatGPT改写HumanML3D/KIT数据集文本描述，通过Tortoise合成多说话人音频，建立首个口语化音频-运动配对数据集。

音频特征处理方面，研究发现WavLM提取的原始特征长度差异显著（最长超过3000帧），直接使用会导致计算效率低下。通过设计的记忆检索模块，将变长音频压缩为固定维度条件信号，在保持语义信息的同时使处理速度提升2.3倍。

运动生成框架包含三大创新：1）RVQ-VAE将运动序列量化为V+1层离散码本，通过基码捕获整体结构，残差码细化局部特征；2）掩码Transformer采用动态余弦调度策略（γ(x)=cos(πx/2)），在L次迭代中逐步预测基码层；3）残差Transformer引入层级指示嵌入，以前层码本为条件生成残差码。实验显示该框架FID降至0.126±0.005，显著优于级联式语音识别+文本生成方案。

数据集构建突破体现在：1）通过提示工程使ChatGPT将"一个人做后空翻"改写为"请完成后空翻动作"等口语指令；2）利用Tortoise合成包含12,696（KIT-ML）和87,384（HumanML3D）条样本的口语数据集，其训练模型在Top-3 R Precision上比原始数据集提升6.7%。

研究结论表明：1）音频指令可达到与文本相当的语义编码能力（Top-1 R Precision 0.426 vs 0.431）；2）端到端框架较级联方法提速50%以上；3）口语数据集对性能提升至关重要，其MM Dist降低8.2%。该工作为开发自然交互的AGI系统提供了新范式，证实语音可直接作为运动生成的高效控制信号。

讨论部分强调三个维度意义：方法论上，首次将掩码生成范式引入音频-运动跨模态任务；应用上，解决了VR场景中实时交互的瓶颈问题；理论上，揭示了语音信号中隐含的运动语义表征能力。未来可探索多语言指令融合和个性化语音适配，进一步推动自然人机交互发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号