一种用于机器人任务导向式运动模仿系统的分段运动合成方法
《Knowledge-Based Systems》:A Segmented Motion Synthesis Method for Robotic Task-Oriented Locomotion Imitation System
【字体:
大
中
小
】
时间:2025年07月24日
来源:Knowledge-Based Systems 7.6
编辑推荐:
机器人通过合成多模态运动数据实现高效任务执行,提出SVAE编码动态变换、SMC-Net强化学习优化合成路径、CJC约束提升动作自然性。实验表明在抓取-反应任务中奖励提升2.6倍,耗时减少1.1倍。
近年来,研究者们越来越关注通过模仿人类分段运动数据来学习敏捷的机器人运动。然而,使用单一模式的运动数据进行模仿学习在执行任务特定动作时效率较低,且运动捕捉和重定向过程可能耗费大量时间和资源。为了解决这些问题,我们提出了一种运动合成框架,能够将分段运动结合,生成具有自然运动特征的任务特定行为。该方法包含三个核心组成部分:状态变分自编码器(SVAE)、合成运动控制网络(SMC-Net)以及关键关节约束(CJC)。通过这些组件的协同作用,我们的框架不仅提高了运动数据的利用效率,还显著增强了机器人在复杂环境中的运动表现。
在工业和日常应用中,机器人运动的建模与再现一直是推动其发展的重要课题。如何在陌生环境中使人形机器人完成特定任务并展现出类似人类的运动模式,是当前研究的重点之一。传统的运动控制方法通常分为物理驱动和数据驱动两种类型。物理驱动方法,如基于深度强化学习(DRL)的近端策略优化(PPO)算法,虽然能够模拟真实物理环境中的运动,但往往导致机器人产生不自然的姿势,运动质量不高,甚至可能带来安全隐患。此外,直接在物理环境中训练机器人还需要专家定义大量的运动限制,限制了其灵活性和适应性。
相比之下,数据驱动的运动控制方法,如DeepMimic,利用参考运动数据通过强化学习复制行为,使机器人能够精确控制其运动。然而,这些方法通常需要人工标注数据或生成运动,增加了工作负担。近年来,一些研究提出了一种四阶段框架,使得腿部机器人能够在减少人工干预的情况下学习动物般的运动。尽管如此,这些方法仍然受限于从单一模式分段运动数据中学习动态,导致在需要多模式运动的任务中,数据利用效率低下,难以生成高质量的任务特定序列。例如,如果机器人只能进行直线行走或原地旋转,那么在复杂导航任务中可能会面临较大挑战。而在像“到达目标并作出反应”这类任务中,机器人能够执行直线行走、转弯、跳跃以及平滑过渡等动作,因此更容易完成。
本研究的核心在于运动合成,我们将模仿框架扩展为五个阶段,以高效利用分段运动数据,并将人类般的运动模式提升到任务层面。这种方法能够替代昂贵的现实世界任务特定运动捕捉,通过低成本的计算方式,利用基本的人类运动技能数据进行合成。为了在数据受限的运动控制任务中生成精确且自然的任务特定行为,我们提出了一种新颖的控制框架,用于连续拼接分段运动。该框架的第一步是将相邻运动的转换压缩到生成模型中,第二步是训练一个策略网络,利用DRL和固定的生成模型,生成最接近分段运动的任务特定合成姿势。最后,通过基于关键关节约束的有效任务特定奖励塑造方法,进一步提升运动的自然性和质量。
在本研究中,我们引入了状态变分自编码器(SVAE)模型,该模型能够将当前与后续姿势之间的动态变化压缩到一个潜在空间中,从而实现对多种姿势的高效生成,同时避免连续重复。与现有的运动生成和合成方法相比,我们的框架可以将来自不同来源的分段运动数据进行合成,生成复杂的多种基本运动技能组合。如何获得丰富的表示是该框架的核心问题之一,已有研究通过蒸馏学习和Transformer结构取得了显著成果。然而,我们采用变分自编码器模型,不仅能够压缩和恢复动态,还能在保持运动多样性的同时,确保生成的姿势具有较高的质量和自然性。
合成运动控制网络(SMC-Net)是本框架的另一关键部分,该网络通过深度强化学习进行训练,能够无缝拼接分段运动,并从多个来源合成姿势。具体来说,我们把SVAE学习到的潜在变量采样空间视为动作空间,根据前一姿势和任务目标,训练控制策略以选择最优的潜在变量和混合比例。随后,通过迭代生成和合成姿势序列,使机器人能够完成复杂的任务。这种设计不仅提高了运动合成的效率,还增强了机器人在任务执行中的适应性和灵活性。
关键关节约束(CJC)是本研究中引入的第三个核心模块,它通过在任务特定奖励函数中加入基于关键关节的惩罚机制,确保机器人生成的运动既自然又高质量。无需额外的数据标注,CJC能够有效指导机器人在训练过程中避免产生不合理的关节运动,从而提升整体运动表现。在实验中,我们以合成行走与转弯、合成行走与跳跃为例,详细说明了CJC在SMC-Net深度强化学习风格训练中的应用。值得注意的是,尽管使用强化学习进行端到端的机器人运动控制不可避免地依赖于专家知识,但我们通过引入CJC,将这种依赖降低到了最低水平。
在实验部分,我们设计了一系列任务特定的目标、奖励机制和智能体观察方式,并对实验结果进行了视觉和定量分析。实验结果显示,我们的框架在任务完成时间和平均奖励方面均优于现有的基于单一模式运动数据的方法。具体而言,实验表明我们的方法在两项“到达目标并作出反应”任务中,平均奖励提升了2.6倍,任务完成时间减少了1.1倍。这表明,通过结合分段运动数据并引入SVAE、SMC-Net和CJC,我们能够显著提高机器人在复杂任务中的运动能力和表现。
本研究的创新点在于,我们不仅提出了一种新的运动合成方法,还将其与强化学习相结合,形成了一种完整的控制框架。该框架能够有效利用有限的分段运动数据,生成高质量、多样化的任务特定运动。通过引入关键关节约束,我们进一步优化了运动的自然性和安全性,使得机器人在执行任务时更加接近人类的运动方式。这种方法在减少人工干预的同时,提高了机器人在复杂环境中的适应性和任务完成能力。
此外,我们还探讨了该框架在实际应用中的优势与局限性。一方面,SVAE和SMC-Net的结合使得机器人能够从有限的运动数据中学习到丰富的运动模式,为复杂任务提供了更多的可能性。另一方面,尽管该框架在实验中表现出色,但在某些特定场景下仍可能面临挑战。例如,当运动数据质量不高或数据量不足时,可能会对合成运动的效果产生影响。因此,未来的研究可以进一步优化数据采集和预处理流程,提高运动数据的多样性和质量,从而增强框架的鲁棒性。
总的来说,本研究为机器人运动控制提供了一种新的解决方案,即通过运动合成和关键关节约束的结合,使机器人能够在缺乏足够训练数据的情况下,仍然展现出高质量的运动能力。这种方法不仅降低了对昂贵运动捕捉设备的依赖,还提高了机器人在复杂任务中的灵活性和适应性。通过将分段运动数据转化为更复杂的任务特定行为,我们为未来的机器人应用打开了新的可能性,特别是在工业自动化、服务机器人和人机交互等领域。此外,本研究的成果也表明,随着深度学习和强化学习技术的不断发展,机器人运动控制的智能化和自动化水平将不断提升,为实现更加自然和高效的机器人行为提供了坚实的基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号