
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度强化学习的双向双车道施工区交通信号控制:可行性、敏感性及现实场景验证
【字体: 大 中 小 】 时间:2025年05月19日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决双向双车道施工区因车道封闭导致的交通冲突与效率低下问题,研究人员系统评估了16种改进的深度强化学习(DRL)算法(涵盖DQN、AC、PO、DDPG四类),发现离散型D3QN-PER-2s算法在虚拟和现实场景中均显著优于连续型DRL及传统方法,平均等待时间降低68%、CO2排放减少15%,为智能交通信号控制(TSC)提供了高可迁移性解决方案。
在城市化进程加速的背景下,双向双车道道路的施工改造常需封闭单车道,导致剩余车道需同时承载双向车流,引发严重的交通拥堵和安全风险。传统交通信号控制(TSC)方法如定时控制或人工调度,难以动态适应复杂多变的施工区环境。尽管深度强化学习(DRL)在智能交通领域展现出潜力,但现有研究多集中于高速公路或多车道交叉口,针对双向双车道施工区的系统性研究仍属空白。此外,DRL算法的“黑箱”特性使得不同场景下的性能差异机制尚不明确。为此,中国某高校研究团队在《Expert Systems with Applications》发表论文,首次系统探索了DRL在双向双车道施工区TSC中的可行性、敏感性及现实适用性。
研究采用虚拟仿真与真实场景验证相结合的策略,关键技术包括:1) 基于SUMO软件构建双向双车道施工区虚拟场景,参数涵盖车道宽度(3.5?m)、工作区长度(50?m)及韦伯分布车流;2) 优化16种DRL算法超参数,包括离散型D3QN-PER-2s(结合优先经验回放和双步时序差分)和连续型SAC;3) 在武汉三个真实施工区采集交通流数据验证模型泛化能力;4) 通过敏感性分析评估工作区长度、车速(30?km/h)、方向分布因子(0.75)对算法性能的影响。
结果与讨论
虚拟场景性能对比
离散型D3QN-PER-2s在平均等待时间和CO2排放指标上分别优于基线方法68%和15%,其双网络结构和优先经验回放机制有效缓解了Q值过估计问题。连续型DRL因动作空间连续化导致收敛速度较慢。
敏感性分析
工作区长度增加时,离散方法表现更优,因其能更好捕捉长距离冲突点的时序特征;而车速降低至20?km/h时,连续型SAC因平滑动作输出更适合低速场景。
现实场景验证
在武汉实测数据中,D3QN-PER-2s保持稳定性能,证实其强泛化能力。研究进一步揭示性能差异的深层机制:离散算法更适合施工区离散化状态空间(如信号相位切换),而连续算法对微观驾驶行为(如加减速)建模更具优势。
结论与意义
该研究首次系统论证了DRL在双向双车道施工区TSC中的适用性,提出离散型D3QN-PER-2s为最优解决方案,其创新性体现在:1) 构建施工区专用DRL框架,填补学术空白;2) 揭示场景参数与算法类型的匹配规律,如长工作区优先选择离散方法;3) 为实际工程提供可落地的智能控制方案。研究成果不仅推动DRL在特殊交通场景的应用,也为智慧城市建设中的交通管理优化提供了理论支撑和实践范式。
生物通微信公众号
知名企业招聘