自动驾驶决策新突破:混合课程强化学习与安全干预方法的创新融合

【字体: 时间:2025年10月11日 来源:TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES 7.9

编辑推荐:

  本文提出了一种混合课程学习(MCL)框架,结合了新颖的差异导向伯努利干预(DDBI)方法,以解决自动驾驶决策中强化学习(RL)面临的安全性和学习效率挑战。该方法通过分阶段训练(安全阶段与性能阶段)和概率化安全干预,在保持RL探索性的同时显著提升了训练过程的安全性,为复杂交互场景下的自动驾驶决策提供了高效可靠的解决方案。

  
亮点
    1. 1.
      设计了一种两阶段课程学习(CL)方法,优先保障安全,再提升性能。该方法通过将安全阶段训练的安全智能体纳入性能阶段,有效防止了灾难性遗忘。
    1. 2.
      提出了一种新颖的差异导向伯努利干预(DDBI)方法,该方法利用基于概率的策略来决定安全智能体是否需要进行干预。这一方法在强化学习(RL)框架内实现了探索与安全之间的理想平衡。
    1. 3.
      实验结果验证了所提算法在保持性能的同时,有效提升了驾驶安全性。具体而言,在换道场景中,所提算法相较于基准算法展现出了卓越的性能。
结论
本文提出了一种混合课程学习(MCL)方法和一种新颖的差异导向伯努利干预(DDBI)方法,旨在增强自动驾驶的安全性并提高学习效率。MCL通过将训练过程划分为安全阶段和性能阶段,使得智能体能够优先满足安全需求,再逐步提升车辆性能。为了防止灾难性遗忘,MCL将安全阶段训练的安全智能体整合到性能阶段中。DDBI则利用基于概率的方法来决定安全智能体是否需要介入干预,从而在强化学习框架内巧妙地平衡了探索与安全。实验结果表明,该方法在换道场景中相较于基准算法具有优越性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号