
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于级联策略分层强化学习的自动驾驶连续换道决策优化研究
【字体: 大 中 小 】 时间:2025年06月21日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对现有分层强化学习(HRL)在自动驾驶换道决策中存在的收敛效率低、策略间独立性过强及风险评估不足等问题,本研究提出融合贝叶斯网络的软行动者-评论家(BSAC)框架,通过建立油门/刹车与转向的级联策略关系,结合驾驶员协作度与碰撞严重性的综合风险评估机制,在CARLA仿真和NGSIM数据验证中实现了安全稳定的连续换道控制。
随着自动驾驶技术快速发展,如何在复杂动态交通环境中实现安全高效的换道决策成为关键挑战。传统基于运动规划的方法在规则明确场景表现良好,但面对高度不确定性时适应性不足;而深度强化学习(DRL)虽在复杂决策中展现出优势,却存在多子目标任务下稳定性差、策略间协同不足等问题。特别是现有分层强化学习(HRL)方法常采用离散动作空间导致控制不连续,且忽视油门/刹车与转向策略的潜在关联,加之风险评估机制片面聚焦碰撞概率而忽略事故严重性,严重制约自动驾驶系统的安全性与舒适性。
针对这些瓶颈,福建理工大学的研究团队在《Engineering Applications of Artificial Intelligence》发表研究,提出创新性的分层贝叶斯软行动者-评论家(HBSAC)框架。该研究通过构建高层意图决策与底层连续控制的HRL模型,引入贝叶斯网络建立策略级联关系,并设计融合驾驶员协作度评估与碰撞严重性预测的综合风险机制。关键技术包括:1)采用CARLA仿真平台构建随机混合交通场景,结合NGSIM人类驾驶数据验证;2)高层决策使用风险最小化目标生成换道意图,底层通过BSAC模型分解联合策略;3)基于贝叶斯推理的策略网络优化油门/刹车与转向的协同分布;4)设计包含时间碰撞概率(TTC)、减速度冲突指数(DCI)等指标的风险评估函数。
整体分层决策架构
研究将换道过程解耦为高层意图决策和底层连续控制。高层通过Q学习网络评估车道风险,结合周围车辆协作度(基于相对速度与车距)生成换道指令;底层采用BSAC模型,其中贝叶斯网络学习油门/刹车策略πa与转向策略πδ的条件概率分布P(πδ|πa),实现策略级联。实验表明该架构使训练效率提升37.6%,且控制连续性指标优于离散HRL方法2.3倍。
综合风险评估机制
突破传统仅评估碰撞概率的局限,提出双重风险评估:1)协作度评估通过交互车辆的历史轨迹预测其合作倾向;2)碰撞严重性预测结合动能定理计算潜在碰撞能量。该机制使高风险换道行为减少68.5%,且紧急制动频率降低42%。
软行动者-评论家优化
在标准SAC算法基础上,通过分解联合策略熵为条件熵H(πδ|πa)与边际熵H(πa),解决传统熵正则化对自动驾驶的适用性问题。消融实验显示该改进使采样效率提升29.4%,策略稳定性提高1.8倍。
研究结论表明,HBSAC框架在CARLA仿真中实现98.7%的成功换道率,轨迹平滑度提升54.2%,且与NGSIM人类驾驶数据的相似度达91.3%。该成果不仅为自动驾驶连续控制提供新范式,其策略级联思想与综合风险评估机制对机器人决策等领域具有普适价值。未来工作将拓展至多车协同场景,并探索基于车路协同的风险预测增强。
生物通微信公众号
知名企业招聘