《ARTIFICIAL INTELLIGENCE REVIEW》:Deep reinforcement learning for robotic bipedal locomotion: a brief survey
编辑推荐:
为解决双足机器人运动控制中泛化性与精确性难以兼顾、仿真到现实(Sim-to-Real)迁移困难等核心挑战,研究人员系统梳理了基于深度强化学习(DRL)的控制框架。该研究将现有方法归纳为端到端(End-to-End)与分层(Hierarchical)两大范式,并深入剖析了各自的优势与局限。研究指出,尽管DRL已显著提升了双足机器人的运动能力,但距离构建一个能够处理多样化任务、形态及环境的统一框架仍有差距。为此,文章提出了双足基础模型(Bipedal Foundation Models, BFMs)和多层自适应模型(Multi-Layer Adaptive Models, MLAMs)两种概念模型,为未来实现通用、自适应的双足运动控制指明了方向。
想象一下,一个机器人能够像人类一样,在崎岖不平的山路上稳健行走,在布满障碍物的房间里灵活穿梭,甚至能像体操运动员一样完成跳跃和翻滚。这不仅是科幻电影中的场景,更是双足机器人研究领域孜孜以求的终极目标。双足机器人因其形态与人类相似,在人类中心环境中具有得天独厚的优势,无论是制造业、医疗康复还是搜救任务,都蕴藏着巨大的应用潜力。
然而,让机器人用两条腿走路,远比看起来要复杂得多。传统的模型控制方法虽然收敛快,但在面对复杂多变的环境时,往往显得“水土不服”,缺乏必要的适应性和鲁棒性。近年来,深度强化学习(Deep Reinforcement Learning, DRL)的兴起,为双足机器人运动控制带来了革命性的突破。通过让机器人在虚拟环境中不断“试错”,DRL能够自主发现控制策略,展现出强大的环境适应能力。
尽管取得了显著进展,但该领域的研究却呈现出一种“碎片化”的状态。不同的研究团队采用不同的训练流程、奖励函数和评估标准,导致各种方法之间难以进行系统性的比较和整合。许多方法往往只针对特定的机器人形态或单一任务进行优化,缺乏跨平台、跨任务的通用性。这种现状阻碍了双足机器人向通用、智能方向的进一步发展。
为了打破这一僵局,Lingfan Bao等人于2025年12月在《Artificial Intelligence Review》上发表了一篇题为《Deep reinforcement learning for robotic bipedal locomotion: a brief survey》的综述文章。该文章系统性地梳理、分类和比较了现有的DRL框架,旨在为构建一个能够处理多样化任务、形态及环境的统一框架提供清晰的路线图。
主要技术方法
为了系统梳理该领域的研究进展,作者采用了文献综述的方法。他们首先明确了文献筛选标准,重点关注2018年至2024年4月期间发表的、专门针对双足机器人的DRL框架研究,并涵盖了仿真和物理机器人上的应用。通过检索Google Scholar、IEEE Xplore、Web of Science、arXiv等数据库以及CoRL、RSS、ICRA、IROS、Humanoids等主要机器人会议,作者对相关文献进行了系统性的收集和分析。基于对文献的深入分析,作者将现有的DRL框架归纳为端到端(End-to-End)和分层(Hierarchical)两大范式,并对每种范式下的具体方法进行了详细的比较和评估。
研究结果
1. 端到端框架 (End-to-End Framework)
端到端框架采用一种整体化的方法,通过一个单一的神经网络(NN)策略,直接将机器人的状态(如传感器数据、用户指令)映射到关节级别的控制输出。这种框架简化了控制流程,无需手动将问题分解为子任务。根据是否依赖先验知识,端到端框架可以进一步分为基于参考(Reference-based)的学习和无参考(Reference-free)的学习。
- •
基于参考的学习 (Reference-based Learning)
该方法利用通过轨迹优化(Trajectory Optimisation, TO)或运动捕捉系统生成的先验知识来指导策略训练。其核心思想是让策略学习模仿或跟踪预定义的运动轨迹。具体可分为两种子方法:
- •
残差学习 (Residual Learning):策略不直接输出关节指令,而是输出一个残差项,用于修正预定义的参考动作。这种方法样本效率高,但性能高度依赖于参考轨迹的质量,且探索能力有限。
- •
引导学习 (Guided Learning):策略直接输出关节指令,其奖励函数旨在鼓励策略输出与参考轨迹高度一致。这种方法能加速学习过程,但同样受限于参考轨迹的多样性,难以适应未见过的情况。
- •
无参考的学习 (Reference-free Learning)
该方法不依赖任何预定义的轨迹,而是通过精心设计的奖励函数,让策略从零开始探索和发现有效的步态模式。这种方法具有更高的创新性和灵活性,能够适应未知地形,但学习过程通常更耗时,且对奖励函数的设计要求极高。
2. 分层框架 (Hierarchical Framework)
分层框架将复杂的运动控制问题分解为多个决策层,每一层负责特定的功能。这种“分而治之”的策略提高了系统的灵活性和模块化程度。根据各层组件的实现方式,分层框架可以分为三种主要类型:
- •
深度规划混合方案 (Deep Planning Hybrid Scheme):高层(High-Level, HL)规划器采用学习策略,而低层(Low-Level, LL)控制器则采用基于模型的传统方法(如逆动力学控制)。这种方案结合了学习策略的适应性和模型控制器的精确性,但系统设计较为复杂。
- •
反馈DRL控制混合方案 (Feedback DRL Control Hybrid Scheme):高层规划器采用传统方法(如步态库、轨迹规划),而低层控制器则采用学习策略。这种方案利用高层规划器处理导航和路径规划,同时利用学习策略实现鲁棒的执行,但高层规划器的计算开销可能较大。
- •
学习型分层方案 (Learned Hierarchy Scheme):高层规划器和低层控制器均采用学习策略。这种方案提供了最大的灵活性,但训练过程非常复杂,且层与层之间的接口设计充满挑战。
3. 当前挑战与未来方向
尽管DRL在双足机器人运动控制中取得了显著进展,但距离实现一个通用、鲁棒的统一框架仍面临诸多挑战:
- •
泛化性与精确性的权衡:现有方法往往难以同时实现高泛化性(适应多种技能和地形)和高精确性(如精确的落脚点控制)。泛化性强的策略通常缺乏精确性,而精确性高的策略则泛化能力有限。
- •
仿真到现实的鸿沟 (Sim-to-Real Gap):在仿真环境中训练的策略,在部署到物理机器人上时,由于模型误差、传感器噪声和物理参数失配等原因,性能会显著下降。实现“零样本”迁移(Zero-shot Transfer)仍然是一个巨大的挑战。
- •
安全关键的运动控制:许多现有框架缺乏对外部环境的感知能力(如视觉),导致机器人无法预见障碍物或危险地形。此外,缺乏对物理约束(如关节极限、自碰撞)的硬性保证,限制了机器人在现实世界中的安全部署。
为了应对这些挑战,文章提出了未来的研究方向,包括多技能学习、挑战性环境穿越、高效学习与奖励设计、运动重定向(Motion Retargeting)、感知条件运动(Perception-conditioned Locomotion)以及约束学习(Constrained Learning)等。此外,文章还探讨了利用基础模型(Foundation Models)进行任务规划和奖励设计,以及从四足机器人研究中汲取经验等新兴机遇。
研究结论与讨论
本文系统性地回顾了基于深度强化学习(DRL)的双足机器人运动控制研究,将现有框架归纳为端到端(End-to-End)和分层(Hierarchical)两大范式。端到端框架通过单一策略直接映射感知到动作,简化了控制流程,在多样化运动技能和复杂地形穿越方面展现出强大的潜力。分层框架则通过“分而治之”的策略,将复杂的运动控制问题分解为多个层级,提高了系统的模块化、灵活性和可解释性。
然而,当前的研究仍面临核心挑战。首先,泛化性与精确性之间存在根本性的权衡,一个能够同时处理多样化任务并保持高精度控制的统一框架尚未实现。其次,仿真到现实(Sim-to-Real)的鸿沟依然是阻碍物理部署的关键瓶颈。最后,安全性和约束满足性在现实世界部署中至关重要,但现有框架往往缺乏对外部环境的感知能力和对物理约束的硬性保证。
为了克服这些挑战并推动领域发展,本文提出了两个概念模型作为未来统一框架的蓝图:
- •
双足基础模型 (Bipedal Foundation Models, BFMs):该模型借鉴了机器人基础模型(Robot Foundation Models, RFMs)的思想,旨在通过大规模预训练学习双足运动的通用先验知识。BFMs将DRL重新定位为一种高效的微调机制,用于将通用先验知识适应到特定机器人的动力学特性上,从而实现通用、自适应的运动控制。
- •
多层自适应模型 (Multi-Layer Adaptive Models, MLAMs):该模型是对传统分层框架的扩展,强调模块化和适应性。MLAMs通过动态组合和切换不同层级的专门化策略,实现灵活的任务处理。特别是,它提出利用大型语言模型(Large Language Models, LLMs)和视觉语言模型(Vision-Language Models, VLMs)等基础模型作为高层推理引擎,将抽象的人类指令分解为可执行的低层动作序列。
总之,本文不仅梳理了当前的研究现状,更重要的是为未来的研究指明了方向。通过构建统一框架,整合端到端和分层范式的优势,并充分利用基础模型等新兴技术,双足机器人有望最终实现真正通用、鲁棒且安全的运动能力,从而在现实世界中发挥其巨大的应用潜力。