基于深度强化学习的自动驾驶卡车战术决策:以总运营成本优化为核心的新架构与课程学习策略分析

《ARTIFICIAL INTELLIGENCE REVIEW》:Tactical decision making for autonomous trucks by deep reinforcement learning with total cost of operation based reward

【字体: 时间:2025年11月27日 来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐:

  本研究针对自动驾驶卡车在高速公路场景中的战术决策问题,提出了一种结合深度强化学习(DRL)与底层控制器的混合架构。通过将高层决策(如跟车时距设定和换道)与底层控制(基于智能驾驶员模型IDM的速度控制)分离,显著提升了驾驶安全性和效率。研究人员采用DQN、A2C和PPO算法,设计了以总运营成本(TCOP)为核心的多目标奖励函数,并引入课程学习(CRL)技术优化训练过程。结果表明,新架构相比基线模型将目标到达成功率从70.6%提升至97.8%,碰撞率从29.4%降至1.6%,同时TCOP降低至3.74欧元(低于SUMO默认模型的3.85欧元)。该研究为自动驾驶系统的经济性和操作性优化提供了新思路,相关代码已开源。

  
在全球化贸易背景下,货运网络效率已成为社会经济命脉,其中超过70%的货物依赖卡车运输。然而,卡车因其庞大体积和惯性,在密集交通中极易引发安全风险,且传统驾驶辅助系统(如自适应巡航控制ACC)基于规则模型,难以应对非确定性环境。更严峻的是,卡车运营涉及能源消耗、人力成本、保险费用等复杂因素,如何平衡安全与经济效益成为行业痛点。
以往研究多聚焦乘用车自动驾驶,且强化学习(RL)agent通常直接控制底层动作(如加减速),导致决策效率低下。例如,Hoel等人(2020)虽将RL应用于卡车驾驶,但agent需学习每一步的加速度控制,即使前方无车也难以快速达到最高速。此外,鲜有研究将总运营成本(Total Cost of Operation, TCOP)这类经济指标引入奖励函数,使得自动驾驶策略与真实商业需求脱节。
针对这些挑战,Chalmers理工大学与沃尔沃集团合作团队在《Artificial Intelligence Review》发表最新研究,提出一种创新架构:将高层战术决策交给RL agent,而底层纵向控制交由物理模型控制器。通过这种分工,卡车既能灵活应对复杂交通场景,又能保证控制动作的平滑性与安全性。研究还设计了以TCOP为核心的奖励函数,引入课程学习(Curriculum Learning)策略,让agent循序渐进学习安全驾驶、节能驾驶和目标达成三大任务。
为验证效果,团队在SUMO仿真平台构建了包含15辆随机速度轿车的三车道高速公路场景,自动驾驶卡车(ego vehicle)需在2200米行程中避免碰撞、成功抵达终点。研究对比了基线架构(纯RL控制)与新架构的性能,并探索了奖励函数权重调整、归一化处理对学习效果的影响。
关键技术方法包括:1)基于SUMO构建非确定性交通仿真环境,传感器范围200米;2)采用PPO、A2C、DQN三种DRL算法,通过稳定基线3(stable-baselines3)库实现;3)设计两类奖励函数——基础安全函数和TCOP多目标函数(含电能消耗、司机成本、事故惩罚等实际成本);4)课程学习分三阶段渐进训练agent;5)纵向控制采用智能驾驶员模型(IDM),换道控制采用SUMO默认LC2013模型。
2.1 状态空间优化提升决策效能
研究首先发现,在状态空间中显式添加与前车距离特征(dlead)能显著改善学习效果。如图4所示,PPO和A2C算法在添加该特征后平均奖励明显提升。验证结果显示,碰撞率从39%降至29.4%,平均速度从18.17 m/s提高至19.43 m/s。这表明明确的相对位置信息有助于agent更精准地决策跟车策略。
2.2 分层架构实现安全与效率双赢
新架构的核心优势在于职责分离。如图3所示,RL agent仅负责高层动作选择(如设置短/中/长时距、调整期望速度、换道),而IDM模型每0.1秒计算一次加速度,LC2013模型控制换道过程。这种设计使agent专注于战略决策,避免陷入细节控制。从图5可见,新架构在三种RL算法下均大幅超越基线架构。特别在PPO算法中(表4),目标到达率从70.6%跃升至97.8%,碰撞率从29.4%骤降至1.6%,平均行驶距离从1667.86米增至2178.37米。
2.3 TCOP奖励函数引导经济性驾驶
研究首次将真实成本引入奖励函数:电费0.5欧元/千瓦时、司机工资50欧元/小时、事故赔偿1000欧元。结果发现,若直接使用原始成本值(如目标完成奖励Rtar=2.78欧元),agent因收益过小倾向于保守驾驶(成功率仅2.2%)。通过调整权重(如Wtar=20时成功率99.2%),agent学会在安全前提下优化经济性(表5)。最终TCOP降至3.74欧元,低于SUMO默认模型的3.85欧元。
2.4 课程学习与归一化策略优化训练稳定性
针对TCOP函数中司机成本(鼓励加速)与能源成本(鼓励减速)的矛盾,研究尝试了课程学习(CRL)和归一化两种方法。如图9所示,将成本除以行驶距离(Δd)归一化后,训练曲线更平稳。但出乎意料的是,CRL并未显著优于非CRL方法(表7-8)。例如在归一化条件下,CRL与非CRL的成功率分别为73.5%和73.25%,说明渐进式学习在此场景下优势有限。
该研究通过架构创新解决了自动驾驶卡车在安全性与经济性间的平衡难题。分层设计使RL agent专注于高层决策,物理模型保证控制可靠性;TCOP奖励函数将商业逻辑融入算法,促使驾驶策略贴合实际运营需求。尽管课程学习未展现明显优势,但权重调整和归一化策略有效提升了训练稳定性。未来方向包括将预训练模型迁移至复杂场景(如坡道、汇流区),以及探索多目标强化学习(MORL)进一步优化成本效益比。此项工作不仅为重型车辆自动驾驶提供了开源仿真框架(代码已发布于GitHub),更为行业迈向可持续智慧物流提供了关键技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号