基于三重自适应延迟深度确定性策略梯度的山地道路自动驾驶控制方法

《Journal of Intelligent and Connected Vehicles》:Road Users' Behavior and Perceptions of Autonomous Vehicles with External Human-Machine Interfaces: a Review of Developments in 2017–2024

【字体: 时间:2026年01月04日 来源:Journal of Intelligent and Connected Vehicles 7.8

编辑推荐:

  为解决山地道路自动驾驶中因复杂弯道和坡度变化导致的控制难题,研究人员提出了一种基于三重自适应延迟深度确定性策略梯度(TAD3)的端到端深度强化学习系统。该研究通过结合循环神经网络与评论家网络,利用历史状态信息,并采用三重评论家结构适应多变的山地路况。实验结果表明,TAD3在车道保持任务中距离误差降低43%-64%,偏航角误差降低19%-74%,同时在最短圈时任务中表现优异,展现了强大的泛化能力。这项研究为复杂地形下的自动驾驶提供了新的解决方案。

  
在山地道路上实现自动驾驶一直是个棘手的问题。蜿蜒曲折的道路、不断变化的坡度,这些因素让车辆控制变得异常复杂。传统自动驾驶系统在结构化环境如城市道路或赛道上表现出色,但面对起伏不定的山地地形时却显得力不从心。山地环境给自动驾驶系统带来了双重挑战:一是连续蛇形路径的弯道半径变化多端,二是地形起伏导致的动态坡度波动。这些因素使得车辆必须在保持横向稳定性的同时,优化纵向动力学控制,特别是在陡坡上维持牵引力至关重要。
以往基于模型的控制方法需要精确的车辆动力学模型,但在多变的山地条件下,手动构建模型往往不够准确。深度强化学习(DRL)算法虽然在其他自动驾驶场景中取得了显著成功,但在应对山地地形时存在明显局限:传统的马尔可夫决策过程(MDP)难以捕捉包含连续曲率和海拔变化的高维状态空间,而且现有方法过于注重局部状态优化,忽视了全局轨迹规划。
针对这些挑战,研究人员在《Journal of Intelligent and Connected Vehicles》上发表了一项创新研究,提出了一种名为三重自适应延迟深度确定性策略梯度(TAD3)的新方法。这项研究将自动驾驶过程建模为部分可观测马尔可夫决策过程(POMDP),以更好地处理驾驶系统和山地环境中不可见的状态问题。
为了开展这项研究,团队主要采用了几个关键技术方法:首先,他们使用TORCS(开放赛车模拟器)作为实验平台,并利用TrackEditor工具构建了三个具有不同曲率和坡度特征的山地赛道。其次,研究提出了三重自适应评论家网络架构,包含两个传统评论家网络和一个基于门控循环单元(GRU)的循环评论家网络。该方法还结合了历史状态信息处理机制,通过隐藏状态记录过去多个时间步的观测、动作和奖励信息。在训练过程中,研究人员采用了经验回放缓冲区和迷你批次采样技术,并设计了针对不同驾驶任务(车道保持、时间最小化、超车)的特定奖励函数。

系统构建与算法设计

研究团队将山地道路自动驾驶问题形式化为POMDP问题,充分考虑了传感器观测的局限性。他们设计了包含29维观测向量的输入空间,涵盖车辆角度、轨道位置、速度等多类传感器信息。动作空间则简化为加速、制动和转向三个连续控制维度。
TAD3算法的核心创新在于其三重评论家网络结构。该结构巧妙地将两个传统的前馈神经网络评论家与一个GRU循环网络评论家相结合,使系统能够根据环境复杂度自适应地选择使用实时信息或历史序列信息。

实验验证与性能评估

车道保持任务

在车道保持任务中,TAD3表现出了卓越的控制精度。研究团队以距离误差和偏航角误差作为评价指标,在三个不同复杂度的山地赛道上进行了全面测试。结果显示,TAD3在所有赛道上的平均距离误差为0.0538米,比基线算法降低了43%-64%;平均偏航角误差为0.0072弧度,降低了19%-74%。

时间最小化任务

在时间最小化任务中,TAD3同样展现出了优越性能。在三个测试赛道上,TAD3实现了最短的单圈时间,平均圈时为32.57秒,相比基线算法有显著提升。通过分析车辆轨迹和速度曲线,研究人员发现TAD3能够更有效地利用赛道宽度,在弯道处选择更优的行驶路线,从而保持更高的平均速度。

超车任务

在超车任务中,TAD3展现出了优秀的泛化能力。研究人员将训练好的模型直接应用于包含六个内置AI对手的复杂超车场景,无需针对该任务进行专门训练。结果表明,TAD3是少数能够完成全部超车任务的算法之一,且在超车过程中保持了更高的平均速度和更短的超车时间。

算法特性分析

研究团队还对TAD3的关键特性进行了深入分析。循环评论家网络使用率实验表明,在训练收敛阶段,循环网络的使用率保持稳定,说明历史信息处理对性能提升起到了重要作用。运行时间测试显示,TAD3虽然比传统TD3算法需要更多计算资源,但比全程使用RNN的LSTM-TD3更为高效。
泛化验证实验进一步证实了TAD3的优越性。在扩展的测试中,TAD3在距离误差和偏航角误差控制方面表现出更好的稳定性,误差分布更为集中。在长达10圈的时间最小化任务中,TAD3不仅实现了更短的圈时,还展现了更好的安全性,车辆偏离赛道的次数明显减少。
这项研究通过创新的TAD3算法,为山地道路自动驾驶提供了有效的解决方案。该方法通过自适应地结合实时控制和历史信息利用,在复杂山地环境下实现了精确的车辆控制。实验结果表明,TAD3在车道保持、时间最小化和超车等多个任务中都显著优于现有基线算法,展现了优秀的性能和泛化能力。
该研究的重要意义在于提出了一种能够适应复杂地形变化的端到端自动驾驶控制方法,减少了对精确车辆动力学模型的依赖。TAD3的三重自适应结构为处理部分可观测环境下的强化学习问题提供了新思路,其循环评论家网络与传统评论家网络的结合方式,为平衡实时控制与全局规划提供了有效途径。
未来研究可以进一步探索如何将这种方法应用于真实世界的自动驾驶系统,同时考虑实际交通规则和安全约束的集成。此外,结合大语言模型等新技术增强系统的理解和决策能力,也是值得探索的方向。这项研究为复杂环境下的自动驾驶技术发展提供了重要参考,推动了强化学习在现实世界应用中的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号