基于三重自适应延迟深度确定性策略梯度的山区道路自动驾驶研究

《Journal of Intelligent and Connected Vehicles》:Autonomous Driving on Mountain Roads via an Adaptive Deep Reinforcement Learning Approach

【字体: 时间:2026年01月04日 来源:Journal of Intelligent and Connected Vehicles 7.8

编辑推荐:

  本研究针对山区道路连续弯道和坡度变化导致的车辆控制难题,提出了一种基于TD3算法的三重自适应深度强化学习系统TAD3。该方法通过结合循环神经网络与评论家网络利用历史状态信息,并采用三重评论家结构适应多变路况。实验结果表明,TAD3在车道保持任务中距离误差降低43%-64%,偏航角误差降低19%-74%,在时间最小化任务中实现更快的圈速,展现出卓越的泛化能力。

  
在自动驾驶技术飞速发展的今天,城市道路和赛道上已经取得了显著进展,但崎岖多变的山区道路仍然是自动驾驶领域亟待攻克的难题。连绵不断的蜿蜒路径和动态起伏的坡度变化,给自动驾驶系统带来了独特的控制挑战。车辆不仅需要保持横向稳定性,还要在陡坡上优化油门和刹车的协调控制,这对传统基于模型的方法构成了严峻考验。
针对这一挑战,贵州大学、江南大学、香港科技大学等机构的研究团队在《Journal of Intelligent and Connected Vehicles》上发表了一项创新研究,提出了三重自适应延迟深度确定性策略梯度(TAD3)方法。该方法基于TD3(Twin Delayed Deep Deterministic Policy Gradient)算法,通过巧妙结合循环神经网络和自适应机制,为山区道路自动驾驶提供了新的解决方案。
研究团队将驾驶过程建模为部分可观测马尔可夫决策过程(POMDP),以更好地处理驾驶系统和山区环境中存在的不可见状态。为了提升车辆在山区道路上的全局控制性能,他们将评论家网络与RNN结合,有效利用历史驾驶信息。最具创新性的是提出的TAD3方法使智能体能够根据复杂山区环境的变化,在循环评论家网络和普通评论家网络之间自适应切换,平衡实时控制和全局控制的需求。
关键技术方法包括:基于TORCS(The Open Racing Car Simulator)构建三个具有不同曲率和坡度特征的山地赛道;设计包含29维传感器信息的观测空间和3维连续动作空间;构建三重自适应评论家网络架构,其中两个为常规全连接评论家网络,一个为集成GRU(Gated Recurrent Unit)的循环评论家网络;针对车道保持、时间最小化和超车等不同任务设计专门的奖励函数。

车道保持任务

在车道保持任务中,TAD3表现出卓越的控制性能。研究团队通过距离误差和偏航角误差两个指标评估算法性能。实验结果显示,TAD3将距离误差限制在±0.02米以内,偏航角误差显著小于0.05弧度。与DDPG(Deep Deterministic Policy Gradient)、PPO(Proximal Policy Optimization)、SAC(Soft Actor-Critic)、TD3和LSTM-TD3等基线算法相比,TAD3在三条测试赛道上的距离误差平均降低43%-64%,偏航角误差平均降低19%-74%。

时间最小化任务

在时间最小化任务中,TAD3同样展现出优越性能。比较分析显示,TAD3在赛道利用效率方面明显优于TD3和LSTM-TD3。在S形弯道、U形弯道和直线段等不同赛道区域,TAD3能够更有效地利用赛道进行制动和转向,以更高速度出弯。通过GG图(横向加速度与纵向加速度关系图)分析发现,TAD3智能体实现了更大的横向和正向纵向加速度,表明其更有效地利用了可用抓地力并采用了更激进的驾驶策略。

超车任务

在超车任务中,TAD3展现出优秀的泛化能力。研究人员在最具挑战性的Track-3赛道上设置了六个具有不同驾驶风格的内置AI(Artificial Intelligence)对手。实验结果表明,只有SAC、TD3和TAD3能够完成超车任务,而TAD3用时最短,展现出卓越的适应性和泛化能力。

循环评论家网络效果分析

对循环评论家网络使用率的监测显示,在探索阶段其使用率波动较大,进入收敛阶段后趋于稳定,表明循环评论家网络在训练过程中发挥着关键作用。运行时间测试表明,TAD3的计算时间虽长于TD3,但短于LSTM-TD3,证明GRU的应用降低了引入RNN(Recurrent Neural Network)带来的计算负担。
泛化验证实验进一步证实了TAD3算法的优越性。在车道保持任务中,TAD3的距离误差和偏航角误差分布最为集中,平均值最接近零,控制稳定性最佳。在时间最小化任务中,TAD3模型在除Track-2外的所有赛道上均成功完成10圈驾驶,且平均圈速最短,行驶距离最长,展现出优异的控制性能和安全性。
该研究通过提出的TAD3方法,成功解决了山区道路自动驾驶中的关键挑战。三重自适应评论家网络架构的创新设计,使智能体能够根据环境复杂度自适应调整历史信息利用策略,在保证实时控制性能的同时提升全局优化能力。实验结果表明,TAD3在车道保持精度、圈速优化和复杂场景适应性方面均显著优于现有主流深度强化学习算法。
这项研究的意义不仅在于提出了一个针对山区道路的高效自动驾驶解决方案,更重要的是为处理部分可观测环境下的连续控制问题提供了新的思路。未来工作将重点关注模拟到现实的迁移问题,开发符合实际交通规则的鲁棒安全协议,并探索与大模型的集成,在CARLA等高保真模拟器中进行验证,为实际部署奠定坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号