基于强化学习的快速轨迹规划器,用于机器人操作器

《Engineering Science and Technology, an International Journal》:Fast trajectory planner with a reinforcement learning-based controller for robotic manipulators

【字体: 时间:2025年09月24日 来源:Engineering Science and Technology, an International Journal 5.1

编辑推荐:

  机器人轨迹规划与避障优化

  在当前的机器人技术中,如何在结构复杂、动态变化的环境中生成无障碍的轨迹是机器人操作领域的一个重要挑战。传统的运动规划方法通常需要额外的计算资源来求解运动学或动力学方程,以生成最终的轨迹。然而,这些方法在处理动态环境时往往表现出计算复杂性高、内存消耗大以及适应性差的问题。因此,本研究提出了一种结合视觉路径规划与强化学习(Reinforcement Learning, RL)的快速轨迹规划系统,旨在解决机器人在动态环境中的高精度轨迹跟踪和障碍物避让问题。

该系统的核心创新点在于,它将任务空间中的视觉路径规划与关节空间中的强化学习避障控制器相结合。任务空间的视觉路径规划利用了大规模快速分割任何(Fast Segment Anything, FSA)模型,以及基于B样条(B-spline)优化的运动学路径搜索,从而确保了生成轨迹的安全性和动态可行性。而强化学习控制器则通过引入动作集(Action Ensembles, AE)和策略反馈(Policy Feedback, PF)来提升其性能,这不仅提高了轨迹跟踪的精度和稳定性,还增强了系统在复杂环境中的适应能力。

强化学习控制器的设计采用了近端策略优化(Proximal Policy Optimization, PPO)算法,这是一种在复杂机器人任务中被广泛认可的算法,因其在稳定性和效率之间的良好平衡而受到关注。为了提升PPO在障碍物避让任务中的性能,本研究提出了两种改进措施:一是通过使用不同分布模型(如线性分布、泊松分布、贝塔分布和指数分布)来优化动作集,二是引入策略反馈机制,通过动态调整折扣因子来增强价值函数的更新。这些改进显著提升了控制器在轨迹跟踪和障碍物避让任务中的性能,使其能够更快速地收敛,并且在动态环境中保持较高的稳定性和适应性。

在实验部分,我们对所提出的方法进行了广泛的评估,包括在模拟环境和真实机器人中的测试。结果表明,改进后的PPO算法在不同模拟平台上的表现优于其他基线方法,且在轨迹跟踪任务中能够实现高精度和高稳定性。此外,快速轨迹规划器在处理动态和复杂环境时,表现出良好的实时性能和适应能力,能够有效应对环境变化带来的挑战。

在实际应用中,该系统能够处理动态障碍物和目标变化等复杂情况。通过结合视觉感知和强化学习技术,该框架不仅提升了轨迹规划的效率,还增强了机器人在复杂环境中的适应能力。然而,系统在某些特定情况下仍面临挑战,例如由于自遮挡导致的感知失败、动态障碍物的快速变化以及目标变更时的轨迹重新规划问题。针对这些问题,我们提出了多种解决方案,包括引入多视角感知系统、预测障碍物运动以及采用快速切换的运动原语等,以提高系统的鲁棒性和适应性。

本研究的成果表明,通过将视觉感知与强化学习相结合,可以有效提升机器人在复杂环境中的运动规划能力。该方法不仅适用于6自由度(6-DoF)的机械臂,还具有良好的泛化能力,能够在不同类型的机器人平台上实现高效的轨迹生成和避障控制。此外,该方法还展示了其在模拟到现实(Sim-to-Real)迁移方面的有效性,为未来的机器人研究和应用提供了重要的参考和基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号