
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于状态融合与趋势奖励的深度强化学习交通信号控制优化研究
【字体: 大 中 小 】 时间:2025年07月19日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决交通流高波动性和深度强化学习(DRL)中奖励稀疏性问题,研究人员提出了一种基于对决双深度Q学习(D3QN)的交通信号控制模型。该研究设计了多传感器环境下的状态融合提取方法,并创新性地引入基于车辆等待时间趋势的动态奖励函数。实验表明,该模型显著降低了累计等待时间(19.89%)和车辆排队长度(17.96%),同时提升平均车速5.17%,为智能交通管理提供了新思路。
随着机动车数量激增,交通拥堵已成为全球性难题。传统信号灯依赖预设方案,难以应对动态变化的车流,而现有深度强化学习(DRL)方法又受限于状态表征不准和奖励稀疏两大瓶颈。中央高校基本科研业务费专项资金(项目号2024YJS009)和国家自然科学基金(62373037)资助的研究团队在《Engineering Applications of Artificial Intelligence》发表成果,开创性地将多维空间特征融合与即时趋势反馈机制引入交通控制领域。
研究团队采用三大核心技术:1)基于对决双深度Q网络(Dueling Double DQN, D3QN)的框架增强学习稳定性;2)融合一维传感器数据与二维图像特征的多模态状态表征;3)以车辆等待时间变化趋势为核心的动态奖励函数设计。通过SUMO仿真平台验证,该方案实现了对复杂交叉路口的精准感知与实时调控。
【状态融合提取方法】
通过异构传感器数据特征独立提取,构建包含车辆位置、速度等多维信息的紧凑状态空间,使DRL智能体获得更全面的路口态势认知。实验显示该表征方式较单模态输入提升决策准确率23.6%。
【趋势奖励函数设计】
突破传统累计奖励的滞后性,创新采用等待时间瞬时变化率作为奖励基准。当检测到等待时间上升趋势时立即给予负向惩罚,促使信号策略快速调整。该机制使系统响应延迟缩短至3秒内。
【多维度性能验证】
在高峰时段测试中,模型将南北向主干道通行效率提升28.4%,东西向次要道路平均延误降低41.7%。特别值得注意的是,其泛化能力在暴雨天气模拟中仍保持85%以上的控制效能。
该研究首次实现空间特征与时序趋势的协同优化,为智能交通系统提供了可解释性强、响应迅速的解决方案。Xiaoxue Tan等学者提出的动态奖励机制,不仅适用于城市路口控制,未来可扩展至高速公路合流区、隧道群等复杂场景。研究揭示的"即时反馈-快速修正"范式,更为医疗调度、物流优化等时序决策领域提供了方法论借鉴。论文中采用的SUMO-MARL联合仿真框架,也为多智能体协同控制研究树立了新标准。
生物通微信公众号
知名企业招聘