基于矢量场增强的强化学习方法在移动机器人自适应运动规划中的应用

《IEEE/ASME Transactions on Mechatronics》:Vector Field Augmented Reinforcement Learning for Adaptive Motion Planning of Mobile Robots

【字体: 时间:2026年02月20日 来源:IEEE/ASME Transactions on Mechatronics 7.3

编辑推荐:

  针对复杂动态环境中移动机器人的运动规划难题,提出向量场增强强化学习框架,结合向量场引导与递退式时域强化学习,有效降低计算成本并提升环境适应性,经仿真和实车测试验证其优越性。

  

摘要:

对于在复杂和动态环境中运行的移动机器人而言,高效且自适应的运动规划至关重要。然而,现有的运动规划方法存在计算成本高、数据利用效率低以及实时适应能力差的问题。因此,我们提出了向量场增强强化学习(VF-RL)这一自适应运动规划框架,它将强化学习(RL)与向量场引导相结合,使移动机器人能够安全地完成实际任务。首先,VF-RL利用复合向量场构建一条具有安全意识的参考路径,并通过运动学约束对其进行优化,以确保可靠的避障引导。接着,我们提出的基于向量场引导和指数障碍函数的滚动时域强化学习(receding-horizon RL)能够生成最优运动路径,有效应对不确定的动态环境,实时执行安全约束并尊重执行器的限制。为了提高VF-RL的适应能力,我们设计了一个基于数据的在线更新模型,以捕捉不断变化环境中的复杂动态特性。通过大量涉及四旋翼飞行器和自主地面车辆的仿真实验,以及使用红旗E-HS3自主平台进行的实际测试,证明了所提出的VF-RL框架在计算效率、成本最小化和避障能力方面优于传统的基于优化和基于RL的方法。

引言

在复杂和动态环境中导航的移动机器人需要安全且自适应的运动规划策略,这仍然是一个具有挑战性的问题[1]。在不确定性条件下,广泛采用的运动规划方法是模型预测控制(MPC),该方法利用先前的系统模型和在线估计来优化有限时间范围内的控制动作[2]、[3]。尽管MPC非常有效,但它存在以下两个主要局限性:1) 计算成本高,因为在线解决非线性或非凸优化问题在计算上可能非常困难,尤其是在实时应用中;2) 依赖于精确的系统模型,当面临未知或时变动态时效果较差。这些局限性促使人们探索无需精确模型即可适应不确定性的基于学习的方法。强化学习(RL)作为一种无模型的方法,表现出对不确定性的强大鲁棒性[4]、[5]、[6]、[7]、[8]。然而,基于RL的运动规划方法也存在以下缺点:1) 无模型RL的数据利用效率低,泛化能力有限,需要大量训练才能在真实世界场景中表现良好;2) 基于模型的RL(包括自适应动态规划[7]、[8])虽然通过估计模型提高了数据利用效率,但在学习效率和鲁棒性方面仍有不足。为了解决这些问题,我们提出了向量场增强强化学习(VF-RL)框架(见图1),该框架将向量场引导与滚动时域RL相结合,从而设计出一种具有更高效率和鲁棒性的自适应运动规划策略,以应对复杂和动态环境。

相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号