自动驾驶决策新突破：混合课程强化学习与安全干预方法的创新融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月11日 来源：TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES 7.9

编辑推荐：

　　本文提出了一种混合课程学习（MCL）框架，结合了新颖的差异导向伯努利干预（DDBI）方法，以解决自动驾驶决策中强化学习（RL）面临的安全性和学习效率挑战。该方法通过分阶段训练（安全阶段与性能阶段）和概率化安全干预，在保持RL探索性的同时显著提升了训练过程的安全性，为复杂交互场景下的自动驾驶决策提供了高效可靠的解决方案。

亮点

•
1. 1.
  设计了一种两阶段课程学习（CL）方法，优先保障安全，再提升性能。该方法通过将安全阶段训练的安全智能体纳入性能阶段，有效防止了灾难性遗忘。
•
1. 2.
  提出了一种新颖的差异导向伯努利干预（DDBI）方法，该方法利用基于概率的策略来决定安全智能体是否需要进行干预。这一方法在强化学习（RL）框架内实现了探索与安全之间的理想平衡。
•
1. 3.
  实验结果验证了所提算法在保持性能的同时，有效提升了驾驶安全性。具体而言，在换道场景中，所提算法相较于基准算法展现出了卓越的性能。

结论

本文提出了一种混合课程学习（MCL）方法和一种新颖的差异导向伯努利干预（DDBI）方法，旨在增强自动驾驶的安全性并提高学习效率。MCL通过将训练过程划分为安全阶段和性能阶段，使得智能体能够优先满足安全需求，再逐步提升车辆性能。为了防止灾难性遗忘，MCL将安全阶段训练的安全智能体整合到性能阶段中。DDBI则利用基于概率的方法来决定安全智能体是否需要介入干预，从而在强化学习框架内巧妙地平衡了探索与安全。实验结果表明，该方法在换道场景中相较于基准算法具有优越性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号