知识引导的自学习控制策略:解决混合车辆队列延迟问题的创新方案

【字体: 时间:2025年08月20日 来源:Nature Communications 15.7

编辑推荐:

  针对自动驾驶与传统车辆混行导致的交通效率低下及通信延迟问题,研究团队提出知识引导的自学习混合队列控制框架。该研究整合运动波模型和Newell跟驰模型预测传统车辆行为,结合改进的SAC算法处理延迟问题。仿真显示该策略在交通稳定性、能耗和舒适性方面优于现有方法,为零事故混流交通管理提供通用解决方案。

  

随着自动驾驶技术快速发展,SAE Level 5级自动驾驶车辆预计将在205年占据10%-71%的行驶里程。然而在未来几十年内,自动驾驶车辆与传统人类驾驶车辆混行的交通环境将成为常态。这种混合交通模式面临两大核心挑战:人类驾驶行为的随机性和异质性,以及车联网通信中不可避免的延迟问题。现有研究多聚焦单一类型车辆队列控制,难以应对混流交通中人类驾驶车辆突然加减速引发的交通振荡(如图1b所示),更无法有效解决V2X通信中随机延迟对控制性能的影响。

针对这些挑战,Jingyao Wang等研究者在《Nature Communications》发表研究,提出知识引导的自学习控制框架。该研究创新性地采用"车-路-云"协同架构(图2),通过三个关键技术突破:首先将传统车辆集群行为建模为单一实体,基于运动波模型和Newell跟驰模型预测其期望时变车头时距Hi-j和静止间距Li-j;其次在SAC算法状态表示中融合历史控制指令以补偿延迟;最后设计基于DRL的模型切换机制应对随机延迟。研究使用NGSIM真实交通数据集训练,在100次随机延迟仿真中保持稳定性能。

【研究方法】

研究采用云端部署的SAC算法作为核心控制器,通过V2X通信获取车辆状态。关键技术包括:1) 基于运动波速度wv和阻塞密度cd的集群行为预测模型(公式25-28);2) 融合历史控制指令的状态表示设计(公式35);3) 延迟区间划分的模型切换机制;4) 包含舒适度jjerk和能耗eeco的多目标奖励函数(公式37)。实验采用加州I-80公路NGSIM真实数据,构建包含7辆车的混合队列进行验证。

【研究结果】

  1. 1.

    控制性能比较

    与传统DRL算法相比,知识引导SAC策略在阻尼比gp(0.54 vs 0.7)、舒适度成本(降低32.1%)和能耗(降低33.9%)等指标均显著优越(图4)。特别是在车辆换道场景实现零碰撞率(图10),而DDPG和PPO算法出现轨迹交叉。

  1. 1.

    延迟鲁棒性验证

    在延迟波动达2ΔT(ΔT=0.1s)时,第2辆CAV加速度幅值保持1.5m/s2以内的稳定表现(图6)。100次随机延迟实验中,跟随车辆性能指标中位数始终优于前车(图8),证明模型切换机制的有效性。

  1. 1.

    渗透率影响

    当CAV渗透率从0%提升至100%时,交通流稳定性fflow提高8.7%(表1)。热力图显示(图7),纯人类驾驶队列会出现速度归零的交通阻塞,而混合队列能有效抑制振荡传播。

【结论与意义】

该研究突破性地解决了混流交通中行为预测和延迟补偿两大难题。通过知识引导与数据驱动的融合,提出的控制框架具有三大优势:1) 无需精确获取人类驾驶车辆参数λi-j和δi-j;2) 可适应0.2-2.0ΔT的随机延迟;3) 在换道等复杂场景保持零碰撞率。相比现有方法,在交通稳定性、能耗和舒适性等指标上实现全面提升,为未来智慧交通系统提供可扩展的解决方案。研究代码已开源,为后续研究提供重要基准。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号