级联强化学习-MPPI框架:融合全局地图与SLAM的越野车辆自主导航突破

《IEEE Open Journal of Intelligent Transportation Systems》:Cascaded RL-MPPI Framework for Off-Road Vehicles: Integrating Global Maps and SLAM

【字体: 时间:2025年12月12日 来源:IEEE Open Journal of Intelligent Transportation Systems 5.3

编辑推荐:

  本文针对越野环境下自动驾驶面临的无结构地形、实时计算约束等挑战,提出了一种级联强化学习(RL)与模型预测路径积分(MPPI)控制框架(CRM)。该研究通过课程学习训练RL评论家进行全局规划,并结合具备回退机制的MPPI控制器进行局部优化,显著提升了终端成本估计精度。仿真结果表明,CRM框架相比单独使用MPPI将成功率提高70%,样本需求降低90%,有效解决了传统方法在复杂越野场景中的性能瓶颈,为自动驾驶系统在农业、军事等领域的应用提供了创新解决方案。

  
在自动驾驶技术日益成熟的今天,城市道路环境下的自动驾驶已经取得了显著进展。然而,当车辆驶离铺装道路,进入充满挑战的越野环境时,情况就变得截然不同。越野自动驾驶需要应对无结构地形、间歇性障碍物以及严格的实时计算约束,这些挑战往往超出了传统运动规划和控制流程的能力范围。
传统的路径规划算法如A*或快速探索随机树(RRT)在简单环境中表现良好,但在高维越野设置中由于计算需求高而往往力不从心。模型预测控制(MPC)和模型预测路径积分(MPPI)虽然能够进行实时轨迹优化,但在崎岖、快速变化的环境中,它们可能需要长规划视野和大样本集,将计算成本推到实际限制之外。
近期DARPA Racer挑战赛展示了MPPI在高度无结构环境中进行越野导航的潜力,但也暴露了一个关键限制:实现可靠性能通常需要大样本量和长规划视野,这会显著增加计算成本。更长的视野和更大的样本数量确实提高了成功率,但极大地增加了执行时间,在要求严格的越野条件下使MPPI超出了实时可行性。
为了解决MPPI在越野设置中的计算限制,研究人员开发了级联RL-MPPI(CRM)框架,该框架将RL用于全局规划,MPPI用于实时局部轨迹优化。CRM利用全球导航卫星系统(GNSS)数据和基于SLAM的感知来适应越野环境。一个预训练的RL智能体,通过全局地图特征如高程和障碍物布局提供信息,为MPPI提供(i)热启动轨迹和(ii)基于评论家的成本启发式。MPPI然后优化这个初始轨迹,利用局部传感器输入处理环境的动态变化。
这种协同方法降低了MPPI对扩展视野和大样本集的依赖,提高了实时可行性,同时确保控制动作在车辆动力学和地形可变性约束下是可行和安全的。然而,RL和MPPI的协同组合也带来了次优动作的风险,如果RL解决方案不准确或与现实条件偏离。为了解决这个问题,CRM包含了基于逻辑的轨迹评估,确保最终控制动作默认选择MPPI-only解决方案或满足可靠性标准的MPPI+RL启发式。
关键技术方法包括:采用课程学习策略分阶段训练RL评论家网络,逐步引入障碍物避免、侧翻预防和牵引力约束;设计基于MPPI的局部规划器进行实时轨迹优化,集成SLAM更新的环境信息;建立回退机制通过代价函数比较实现RL启发式与传统启发式的自适应切换。研究在具有代表性的越野环境仿真场景中进行验证,使用包含立体深度相机、GNSS接收器和IMU的传感器套件模拟真实感知条件。
研究结果表明,CRM框架在导航性能上显著优于传统方法。在轨迹成本分析中,CRM在大多数测试场景中实现了最低的轨迹成本或与最佳控制器相匹配,同时保持或改善了行驶时间。特别是在具有挑战性的场景中,CRM能够利用局部适应性和RL评论家的指导来收敛到更优的解决方案。与基线MPPI相比,CRM将成功率提高了70%,样本需求降低了90%,在保持安全性的同时大幅提升了计算效率。
课程学习的引入对RL评论家的训练效果产生了重要影响。通过分阶段引入约束条件,CL训练的评论家表现出更稳定和快速的收敛性。从仅关注时间到目标的第一阶段开始,逐步添加障碍物避免、侧翻约束等复杂性,帮助网络有效学习。相比之下,非课程学习(NCL)方法必须从头学习整个非凸成本函数,延长了训练时间并可能在较长时间内产生较高的成本值。
针对未映射障碍物的处理能力是CRM框架的另一个重要优势。当环境中出现全局地图中未捕获的新障碍物时,CRM的回退机制能够检测到评论家终端成本的次优性,并自动切换到基于时间的启发式方法。这种适应性确保了即使在全局RL策略过时或次优的情况下,CRM仍能保持高性能,通过增加采样和评估轨迹来应对新检测到的障碍物。
CRM框架的成功开发为越野自动驾驶提供了新的解决方案,通过巧妙结合RL的全局预见性和MPPI的局部适应性,在保持实时控制可行性的同时显著降低了计算需求。这一研究成果不仅解决了当前越野导航中的关键技术瓶颈,也为自动驾驶在农业、军事、搜救等领域的实际应用奠定了重要基础。未来的研究方向包括提高模型的泛化能力、增强对分布偏移的鲁棒性,以及实现从仿真到实车的无缝转移,进一步推动自动驾驶技术在复杂环境中的实际应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号