四足机器人多步态与双足运动在复杂地形下的稳定模仿学习框架研究

【字体: 时间:2025年08月04日 来源:Advanced Robotics Research

编辑推荐:

  这篇综述提出了一种创新的模仿学习框架,通过长短期记忆网络(LSTM)数据正则化模块、基于模型的稳定性奖励函数和插值数据集增强技术,解决了四足机器人在不平坦地形中模仿多步态(如踱步、小跑、跳跃)和双足运动时的稳定性与泛化性难题。该框架支持跨机器人平台的数据输入,显著提升了动态环境下的运动适应性和鲁棒性(CoM-CoP向量调节),为搜救等现实场景应用奠定基础。

  

摘要

模仿学习在四足机器人控制领域展现出显著优势,能实现精准运动跟踪和复杂动作(如后空翻、快速小跑),且比传统强化学习(RL)收敛更快。然而现有方法在稳定性、泛化性和现实环境适应性方面仍存在挑战,尤其面对干扰和复杂地形时。为此,研究者提出整合长短期记忆(LSTM)数据正则化模块、基于模型的稳定性奖励函数和插值数据集增强技术的新型框架,通过优化运动数据、增强稳定性及抗干扰能力,使机器人能执行多样步态(三足行走、踱步、跳跃等)甚至双足行走,并在复杂地形中保持稳定。

1 引言

近年来,模仿学习被广泛应用于四足机器人控制,避免了模型预测控制(MPC)复杂的动力学推导,且比从零开始的RL方法收敛更快。然而,当前研究仍面临三大挑战:稳定性不足、泛化能力有限以及Sim2Sim/Sim2Real差距。为解决这些问题,本研究提出结合LSTM网络的数据预处理、基于可变高度倒立摆(VHIP)模型的稳定性奖励,以及可变频率模仿学习技术,使机器人能适应不同步态和速度需求。

2 相关工作

2.1 基于运动数据的模仿学习

现有方法包括从仿真/真实机器人记录中学习的运动克隆(如Peng等人的优化关键点距离法)和逆强化学习(如Escontrela的生成对抗网络)。但这些方法难以实现复杂地形下的稳定运动跟踪。

2.2 基于模型奖励的学习控制

Gangapurwala等人引入零力矩点(ZMP)奖励,Kang等人采用VHIP模型,而Luo将VHIP奖励用于容错控制。这些模型虽提升稳定性,但多需额外训练时间。

3 方法

3.1 参考数据集与正则化模块

数据集包含机器人身体速度、关节位置等12维向量,通过LSTM网络实现运动重定向和去噪,损失函数基于足端位置L2范数误差(公式2)。该模块支持跨平台数据输入,如从Aliengo的MPC数据迁移到Go1机器人。

3.2 多步态与双足运动的模仿学习

将问题建模为部分可观测马尔可夫决策过程(POMDP),使用近端策略优化(PPO)算法训练。状态空间包含IMU数据、关节状态及参考运动序列,动作空间为12维关节位置偏移量。通过插值法实现可变频率模仿,类似“视频变速播放”,避免重复采集数据(公式8-9)。

3.2.2 基于模型的稳定性奖励

奖励函数包含线性速度跟踪(权重1.0)、VHIP角度惩罚(公式11-12)等,通过调节质心-压力中心(CoM-CoP)向量增强抗干扰能力。实验表明,该设计使机器人在25cm崎岖地形上的复位次数降低50%(图10)。

4 实验与分析

4.1 跟踪误差对比

在5cm/25cm不平地形上,本方法比Peng的优化法和Yao的IK映射法降低30%位置误差(图4)。

4.3 多步态模仿

机器人成功复现踱步、跳跃等步态,并在草地和斜坡地形中保持稳定(图7)。

4.7 双足运动模仿

Go1机器人模仿人类双足行走时,髋关节跟踪准确,但小腿关节为稳定性牺牲部分精度(图12C)。

5 讨论

本框架通过LSTM正则化和VHIP奖励,显著提升四足机器人在动态环境中的性能。未来将融合视觉传感器和更复杂动力学模型,以支持更激进的动作和长时任务。

(注:全文严格依据原文缩编,未添加非文献内容,专业术语如VHIP、CoM-CoP等均保留原文格式。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号