强化学习在鲁棒运动智能中的应用:第二届RealAIGym AI奥林匹克竞赛的启示与突破

《IEEE Reliability Magazine》:Automated Behavior Planning for Fruit Tree Pruning via Redundant Robot Manipulators: Addressing the Behavior Planning Challenge

【字体: 时间:2025年12月16日 来源:IEEE Reliability Magazine

编辑推荐:

  本文针对机器人控制中仿真与实机性能差异及抗干扰能力不足的问题,介绍了第二届RealAIGym AI奥林匹克竞赛中四种强化学习控制器(MC-PILCO、AR-EAPO、EvolSAC、HistorySAC)在欠驱动双摆系统上的对比研究。结果表明,模型基于方法MC-PILCO在Acrobot任务中表现最优,而平均奖励熵优势策略优化(AR-EAPO)在Pendubot任务中胜出,二者均展现出卓越的sim-to-real迁移能力和抗干扰鲁棒性,为动态机器人控制提供了重要实践参考。

  
在机器人技术飞速发展的今天,如何让智能体在复杂动态环境中保持稳定可靠的性能,一直是研究者们面临的重大挑战。特别是在欠驱动系统控制领域,传统的控制方法往往难以应对系统的非线性、混沌特性以及实机应用中的各种不确定性。这就像试图让一个杂技演员在晃动的钢丝上完成高难度动作,任何微小的扰动都可能导致失败。
第二届AI奥林匹克竞赛暨RealAIGym竞赛正是在这样的背景下应运而生,该竞赛于2024年IEEE/RSJ智能机器人与系统国际会议(IROS 2024)上举行,旨在系统评估不同控制方法在真实机器人平台上的表现。竞赛聚焦于一个典型的欠驱动系统——双摆系统,参与者需要设计控制器完成从下垂位置到直立位置的摆起平衡任务,并经受住随机外部扰动的考验。
竞赛的独特之处在于其严格的三阶段评估流程:仿真阶段、远程硬件测试和现场决赛。这种设计确保了控制器不仅要在理想仿真环境中表现优异,更要能够跨越仿真与现实之间的鸿沟,在真实硬件上保持鲁棒性。评分标准同样经过精心设计,包含性能得分(Sp)和鲁棒性得分(Sr),分别衡量控制器的任务完成效率和抗干扰能力。
令人印象深刻的是,进入决赛的四支团队不约而同地选择了强化学习方法,这反映出RL在解决复杂控制问题方面的巨大潜力。然而,这些方法在具体实现上又各具特色,形成了有趣的对比。
研究人员主要采用了四种关键技术方法:蒙特卡洛概率推理学习控制(MC-PILCO)是一种模型基于RL算法,使用高斯过程学习系统动力学;平均奖励熵优势策略优化(AR-EAPO)是模型无关的在线策略算法,在平均奖励设置中扩展了最大熵RL;进化软演员-评论家(EvolSAC)结合了深度RL与进化策略,采用两阶段优化流程;历史感知软演员-评论家(HistorySAC)通过卷积神经网络编码历史速度观测值,增强时序特征学习。所有方法均在RealAIGym开源平台上实现,控制频率从33Hz到500Hz不等,使用标准GPU进行训练。
ACROBOT任务结果
在仿真环境中,HistorySAC和AR-EAPO表现最佳,性能得分分别为0.66和0.63,能够在1秒内快速完成摆起,扭矩使用平滑且能耗较低。鲁棒性方面,二者也分别获得0.75和0.73的高分,特别在扭矩噪声和响应延迟测试中表现出色。EvolSAC表现中等(性能0.52,鲁棒性0.69),而MC-PILCO由于较高的能量消耗和不平滑的扭矩信号,仅获得0.31的性能得分。
然而,在真实硬件测试中,结果出现了戏剧性反转。MC-PILCO通过从实机数据中学习系统动力学,实现了10次尝试全部成功,平均得分0.36。AR-EAPO虽然在各单项指标上更优,但成功率仅为8/10,以0.34的平均分屈居第二。HistorySAC和EvolSAC则由于明显的sim-to-real差距,分别仅获得1次和0次成功。
PENDUBOT任务结果
在Pendubot任务中,四种控制器的仿真性能较为接近:HistorySAC(0.68)、AR-EAPO(0.66)、EvolSAC(0.60)和MC-PILCO(0.48)。鲁棒性方面,AR-EAPO表现尤为突出,获得0.91的最高分,在模型误差和随机扰动测试中保持100%的成功率。
真实硬件测试中,MC-PILCO和AR-EAPO均实现10/10的全胜记录,得分极为接近(AR-EAPO:0.65,MC-PILCO:0.64)。HistorySAC获得7次成功,平均分0.34,而未能现场调试的EvolSAC仅成功2次。
讨论与结论
MC-PILCO的成功印证了模型基于RL在样本效率方面的优势——仅需30-40秒的系统交互时间即可学习有效策略。其关键在于直接从实机数据中学习动力学模型,有效规避了sim-to-real差距问题。然而,这种方法对模型精度依赖度高,在仿真鲁棒性测试中表现较差。
AR-EAPO的亮点在于实现了零样本sim-to-real迁移,无需域随机化或系统辨识。研究者将其鲁棒性归因于最大熵目标函数鼓励的策略多样性,使控制器对未建模动态更具适应性。不过,其在Acrobot任务中的相对弱势表明简单的二次奖励函数可能导致次优轨迹。
HistorySAC和EvolSAC作为模型无关方法,虽然在仿真中表现competitive,但实机应用凸显了系统辨识的重要性。HistorySAC通过差分进化算法优化物理参数,EvolSAC采用两阶段训练策略,这些努力虽然改善了性能,但未能完全克服sim-to-real挑战。
这项研究的重要意义在于提供了一个标准化、可复现的实机评测平台,为RL算法在机器人控制中的应用建立了重要基准。获胜控制器甚至能够在被棍棒大力扰动后快速恢复平衡,证明了RL方法在处理极端不确定性方面的巨大潜力。随着RealAIGym平台的持续发展,这类竞赛有望推动机器人控制技术向更鲁棒、更实用的方向迈进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号