
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于音频指令的语义感知人体运动生成:一种端到端的掩码生成Transformer框架
【字体: 大 中 小 】 时间:2025年05月27日 来源:Graphical Models 2.5
编辑推荐:
针对现有音频-运动生成方法语义关联弱、交互不自然的问题,研究人员创新性地提出音频指令驱动的运动生成任务,开发了融合记忆检索注意力模块的掩码生成Transformer框架。通过WavLM音频编码和RVQ-VAE多级量化表征,实现了与文本方法相当的语义对齐(R Precision 0.426±0.007),生成效率提升50%,并构建了首个口语化音频-运动数据集(HumanML3D/KIT),为人机交互提供了更自然的控制范式。
在虚拟现实和元宇宙快速发展的时代,如何实现自然流畅的人机交互成为关键挑战。传统文本指令需要用户精确描述动作细节,而音乐/语音驱动的运动生成往往仅关注节奏匹配,导致语义控制力薄弱。针对这一瓶颈,国内研究人员在《Graphical Models》发表创新研究,提出通过音频指令直接生成语义对齐的人体运动,开创性地将语音交互的便捷性与运动生成的精确性相结合。
研究采用WavLM预训练模型提取音频特征,通过记忆检索注意力模块压缩长序列信号;构建包含掩码Transformer和残差Transformer的RVQ-VAE框架,实现基码层和残差码层的分级生成;利用ChatGPT改写HumanML3D/KIT数据集文本描述,通过Tortoise合成多说话人音频,建立首个口语化音频-运动配对数据集。
音频特征处理方面,研究发现WavLM提取的原始特征长度差异显著(最长超过3000帧),直接使用会导致计算效率低下。通过设计的记忆检索模块,将变长音频压缩为固定维度条件信号,在保持语义信息的同时使处理速度提升2.3倍。
运动生成框架包含三大创新:1)RVQ-VAE将运动序列量化为V+1层离散码本,通过基码捕获整体结构,残差码细化局部特征;2)掩码Transformer采用动态余弦调度策略(γ(x)=cos(πx/2)),在L次迭代中逐步预测基码层;3)残差Transformer引入层级指示嵌入,以前层码本为条件生成残差码。实验显示该框架FID降至0.126±0.005,显著优于级联式语音识别+文本生成方案。
数据集构建突破体现在:1)通过提示工程使ChatGPT将"一个人做后空翻"改写为"请完成后空翻动作"等口语指令;2)利用Tortoise合成包含12,696(KIT-ML)和87,384(HumanML3D)条样本的口语数据集,其训练模型在Top-3 R Precision上比原始数据集提升6.7%。
研究结论表明:1)音频指令可达到与文本相当的语义编码能力(Top-1 R Precision 0.426 vs 0.431);2)端到端框架较级联方法提速50%以上;3)口语数据集对性能提升至关重要,其MM Dist降低8.2%。该工作为开发自然交互的AGI系统提供了新范式,证实语音可直接作为运动生成的高效控制信号。
讨论部分强调三个维度意义:方法论上,首次将掩码生成范式引入音频-运动跨模态任务;应用上,解决了VR场景中实时交互的瓶颈问题;理论上,揭示了语音信号中隐含的运动语义表征能力。未来可探索多语言指令融合和个性化语音适配,进一步推动自然人机交互发展。
生物通微信公众号
知名企业招聘