基于三重自适应延迟深度确定性策略梯度的山区道路自动驾驶控制方法

《Journal of Intelligent and Connected Vehicles》:AdvGLOW: Covert Adversarial Attacks Against Autonomous Driving Perception

【字体: 时间:2026年01月04日 来源:Journal of Intelligent and Connected Vehicles 7.8

编辑推荐:

  本文针对山区道路复杂曲率和坡度变化带来的自动驾驶控制难题,提出了一种基于三重自适应延迟深度确定性策略梯度(TAD3)的端到端深度强化学习系统。该方法通过结合循环神经网络与评论家网络,利用历史状态信息,并采用三重评论家结构适应多变山地路况。实验结果表明,TAD3在TORCS模拟器中相比五种先进基线方法,在车道保持任务中距离误差降低43%-64%,偏航角误差降低19%-74%,在最短时间任务中实现更优圈速,并在三种不同设计的山区赛道上展现出卓越的泛化能力。

  
在自动驾驶技术飞速发展的今天,城市道路和赛车场等高度结构化环境中的自动驾驶已经取得显著进展,然而崎岖多变的山区道路仍然构成巨大挑战。连绵不断的蛇形路径伴随着多变的曲率半径,加上复杂地形导致的动态起伏坡度,使得车辆在保持横向稳定性的同时还需要精确协调纵向动力学控制,这对自动驾驶系统提出了极高的要求。
传统基于模型的控制方法在这种多变条件下往往力不从心,因为手动构建的车辆动力学模型难以应对各种不确定性。而深度强化学习(DRL)作为解决复杂机器人控制问题的有力工具,虽然在城市自动驾驶场景中表现出色,但在应对山区地形时却面临两大局限:传统马尔可夫决策过程(MDP)难以捕捉包含连续曲率和海拔变化的高维状态空间,且现有方法过于注重局部状态优化而忽略了全局轨迹规划。
针对这些挑战,研究人员在《Journal of Intelligent and Connected Vehicles》上发表了一项创新研究,提出了一种名为三重自适应延迟深度确定性策略梯度(TAD3)的新型端到端自适应深度强化学习系统。该方法基于双延迟深度确定性策略梯度(TD3)算法,通过巧妙结合循环神经网络(RNN)与评论家网络,充分利用车辆的历史状态信息,并采用三重评论家结构来适应各种曲率和坡度的多样化山区路况。
研究团队将驾驶过程建模为部分可观测马尔可夫决策过程(POMDP),以有效处理驾驶系统和山区环境中固有的不可见状态。为了提升车辆在山区道路上的全局控制性能,他们将评论家网络与RNN相结合,充分利用大量的历史驾驶信息。最具创新性的是提出的TAD3方法使智能体能够根据复杂山区环境的变化,在循环评论家网络和普通评论家网络之间自适应切换,平衡实时控制和全局控制,同时适应具有不同曲率和坡度的山区道路上的多样化自动驾驶任务和工作负载。
关键技术方法方面,研究团队设计了包含两个传统评论家网络和一个基于门控循环单元(GRU)的循环评论家网络的三重自适应评论家结构。传统评论家网络Qθ1和Qθ2保持与标准TD3算法一致的结构,而基于GRU的循环评论家网络Qθgru专门用于处理POMDP问题并将历史信息融入观察中。通过引入包含l个时间步长历史信息的隐藏状态ht,智能体能够基于更全面的环境表征做出控制决策。时间差分(TD)目标计算采用双重最小化策略,既减少估计偏差,又实现从实时控制到全局控制的自适应切换。
实验设置与评估
研究团队使用开源赛车模拟器(TORCS)进行算法训练和评估,并利用TrackEditor构建了三个复杂度递增的自定义山区赛道。车辆观察状态包含29维向量,包括角度、赛道位置、速度等信息,而动作为连续空间,包括加速、刹车和转向。
车道保持任务结果
在车道保持任务中,TAD3表现出卓越的控制性能,将距离误差限制在±0.02米以内,偏航角误差显著小于0.05弧度。与五种基线算法相比,TAD3在三条赛道上平均将距离误差降低43%-64%,偏航角误差降低19%-74%。
最短时间任务结果
在最短时间任务中,TAD3在所有三条赛道上均实现了最快圈速,展现出优异的轨迹规划能力。通过分析GG图(横向加速度与纵向加速度的关系),TAD3智能体相比TD3和LSTM-TD3实现了更大的横向和正向纵向加速度,表明其能更有效地利用可用抓地力并采用更激进的驾驶策略。
超车任务与泛化验证
在超车任务中,TAD3在未经过专门训练的情况下成功完成了超越六辆内置AI车辆的任务,展现出优秀的泛化能力。泛化验证实验进一步证实,TAD3在控制稳定性和安全性方面均优于TD3和LSTM-TD3。
循环评论家网络效果分析
实验数据显示,循环评论家网络在训练过程中发挥着重要作用,尤其在收敛阶段使用率保持稳定。虽然TAD3的运行时间略长于TD3,但显著短于LSTM-TD3,表明GRU的应用有效降低了引入RNN带来的计算负担。
研究结论表明,TAD3方法通过将驾驶过程建模为POMDP问题,并集成GRU与TD3架构来处理序列车辆状态信息,显著提升了山区复杂驾驶场景中的性能表现。该方法在车道保持任务中实现43%-64%的距离误差降低和19%-74%的偏航角误差降低,在时间最优驾驶任务中效率优于所有基线方法,并展现出卓越的泛化性能。
这项研究的重要意义在于为解决山区道路自动驾驶这一长期挑战提供了有效的深度强化学习解决方案,通过自适应历史信息集成和多重评论家网络结构,实现了在复杂多变地形中的稳健控制。未来工作将重点关注模拟到现实的迁移,开发考虑真实交通法规的鲁棒安全协议,并探索与大模型的集成,在高保真模拟器中进行验证,为实际部署奠定基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号