SGLPER:深度强化学习与专家示范融合,开启自动驾驶安全决策新篇

【字体: 时间:2025年05月08日 来源:Displays 3.7

编辑推荐:

  当前自动驾驶面临冷启动和安全难题,研究人员开展 SGLPER 框架研究,融合优先经验回放(PER)、专家示范和 Gipps 模型。实验表明该框架稳健有效,能提升学习效率和决策安全性,为自动驾驶发展提供新方向。

  
在自动驾驶飞速发展的今天,人们对其安全性和高效性寄予厚望。然而,现实却给这份期待泼了冷水。深度强化学习(DRL)虽在自动驾驶领域有所应用,但问题接踵而至。一方面,它存在冷启动问题,就像汽车启动时需要漫长的预热过程一样,DRL 模型需经过大量训练才能逐渐稳定收敛,这无疑耗费了大量时间和资源。另一方面,在复杂多变的动态驾驶环境中,安全始终是悬在头顶的达摩克利斯之剑,现有方法难以充分保障自动驾驶车辆在各种场景下的安全行驶。比如在交通流量大的路口转弯,或是在环岛中行驶时,车辆如何精准决策以避免碰撞,成为亟待解决的难题。在这样的背景下,开展相关研究,找到突破困境的方法显得尤为重要。

为了解决这些棘手问题,来自国内的研究人员踏上了探索之路。他们开展了关于 SGLPER(A safe end - to - end autonomous driving decision framework combining deep reinforcement learning and expert demonstrations via prioritized experience replay and the Gipps model)的研究。最终,研究取得了令人瞩目的成果,SGLPER 框架展现出强大的性能,有效提升了自动驾驶的学习效率和决策安全性,为自动驾驶技术的发展注入了新的活力。相关研究成果发表在《Displays》上。

研究人员在开展研究时,运用了几个关键技术方法。首先是优先经验回放(PER)技术,它能对经验进行筛选,优先选取高价值的经验用于训练,加速模型收敛。其次,长短期记忆(LSTM)方法被引入,它可以从观测状态中捕捉时空信息,让模型能依据过往经验在复杂交通场景中做出决策。此外,研究还融入了 Gipps 模型,通过计算安全速度约束,保障驾驶安全,同时利用 Kullback–Leibler(KL)散度将强化学习与专家示范相结合,助力模型学习类人驾驶行为 。

下面来看具体的研究结果:

  • End - to - end safe autonomous driving method:安全是自动驾驶的核心,在应用 RL 算法进行自动驾驶运动规划时,需要高度关注智能体策略对不安全决策的敏感性。这是确保训练后的智能体在自动驾驶过程中能够做出安全、及时决策的关键 。
  • DRL methodology for autonomous driving model:将 DRL 与专家示范经验相结合,可增强智能体的学习能力。具体方式有使学习到的策略π向专家策略πE正则化,或者直接约束学习到的策略π和专家策略πE之间的差异。
  • Implementation:研究人员利用 SMARTS 模拟平台设计了两个具有挑战性的评估场景。第一个场景是在高流量的无保护路口左转弯,车辆需要在没有交通信号灯的情况下左转进入主路,并快速并入最右侧车道,难度颇高。第二个场景是环岛行驶场景。
  • Experimental results and discussions:研究人员分别在左转弯场景中对 SGLPER、LPER 和原始算法进行测试,还在环岛场景中对 SGLPER 方法进行额外实验,通过收集 100000 步训练数据,利用五个关键指标分析智能体的自动驾驶性能 。

在研究结论和讨论部分,SGLPER 框架成功解决了自动驾驶中的冷启动问题和动态环境下的安全问题。通过整合 PER 加速学习进程,借助 LSTM 捕捉时空信息,融入 Gipps 模型计算安全速度,SGLPER 显著提升了学习效率和决策安全性。同时,引入专家示范也让模型学习到更接近人类的驾驶行为。这一研究成果意义重大,它为自动驾驶系统的进一步发展提供了新的思路和方法,有望推动自动驾驶技术更加安全、高效地迈向实际应用,让未来的出行变得更加安全和便捷。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号