
-
生物通官微
陪你抓住生命科技
跳动的脉搏
知识引导的自学习控制策略:解决混合车辆队列延迟问题的创新方案
【字体: 大 中 小 】 时间:2025年08月20日 来源:Nature Communications 15.7
编辑推荐:
针对自动驾驶与传统车辆混行导致的交通效率低下及通信延迟问题,研究团队提出知识引导的自学习混合队列控制框架。该研究整合运动波模型和Newell跟驰模型预测传统车辆行为,结合改进的SAC算法处理延迟问题。仿真显示该策略在交通稳定性、能耗和舒适性方面优于现有方法,为零事故混流交通管理提供通用解决方案。
随着自动驾驶技术快速发展,SAE Level 5级自动驾驶车辆预计将在205年占据10%-71%的行驶里程。然而在未来几十年内,自动驾驶车辆与传统人类驾驶车辆混行的交通环境将成为常态。这种混合交通模式面临两大核心挑战:人类驾驶行为的随机性和异质性,以及车联网通信中不可避免的延迟问题。现有研究多聚焦单一类型车辆队列控制,难以应对混流交通中人类驾驶车辆突然加减速引发的交通振荡(如图1b所示),更无法有效解决V2X通信中随机延迟对控制性能的影响。

针对这些挑战,Jingyao Wang等研究者在《Nature Communications》发表研究,提出知识引导的自学习控制框架。该研究创新性地采用"车-路-云"协同架构(图2),通过三个关键技术突破:首先将传统车辆集群行为建模为单一实体,基于运动波模型和Newell跟驰模型预测其期望时变车头时距Hi-j和静止间距Li-j;其次在SAC算法状态表示中融合历史控制指令以补偿延迟;最后设计基于DRL的模型切换机制应对随机延迟。研究使用NGSIM真实交通数据集训练,在100次随机延迟仿真中保持稳定性能。

【研究方法】
研究采用云端部署的SAC算法作为核心控制器,通过V2X通信获取车辆状态。关键技术包括:1) 基于运动波速度wv和阻塞密度cd的集群行为预测模型(公式25-28);2) 融合历史控制指令的状态表示设计(公式35);3) 延迟区间划分的模型切换机制;4) 包含舒适度jjerk和能耗eeco的多目标奖励函数(公式37)。实验采用加州I-80公路NGSIM真实数据,构建包含7辆车的混合队列进行验证。
【研究结果】
控制性能比较
与传统DRL算法相比,知识引导SAC策略在阻尼比gp(0.54 vs 0.7)、舒适度成本(降低32.1%)和能耗(降低33.9%)等指标均显著优越(图4)。特别是在车辆换道场景实现零碰撞率(图10),而DDPG和PPO算法出现轨迹交叉。

延迟鲁棒性验证
在延迟波动达2ΔT(ΔT=0.1s)时,第2辆CAV加速度幅值保持1.5m/s2以内的稳定表现(图6)。100次随机延迟实验中,跟随车辆性能指标中位数始终优于前车(图8),证明模型切换机制的有效性。

渗透率影响
当CAV渗透率从0%提升至100%时,交通流稳定性fflow提高8.7%(表1)。热力图显示(图7),纯人类驾驶队列会出现速度归零的交通阻塞,而混合队列能有效抑制振荡传播。

【结论与意义】
该研究突破性地解决了混流交通中行为预测和延迟补偿两大难题。通过知识引导与数据驱动的融合,提出的控制框架具有三大优势:1) 无需精确获取人类驾驶车辆参数λi-j和δi-j;2) 可适应0.2-2.0ΔT的随机延迟;3) 在换道等复杂场景保持零碰撞率。相比现有方法,在交通稳定性、能耗和舒适性等指标上实现全面提升,为未来智慧交通系统提供可扩展的解决方案。研究代码已开源,为后续研究提供重要基准。
生物通微信公众号
知名企业招聘