生成式策略驱动的HAC强化学习框架在自动驾驶事件响应中的创新应用

【字体: 时间:2025年08月29日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  本文提出了一种生成式策略驱动的Hamilton-Jacobi-Bellman Actor-Critic(HAC)强化学习框架,通过整合连续时间与离散时间强化学习(RL),解决了自动驾驶(AD)中障碍物避让和变道场景下的动作振荡问题。创新性地采用Lipschitz约束动作值函数和HJ-DDPG算法(含延迟策略更新和动态参数噪声模块),实验显示其在高频决策下平均加加速度降低52%,转向速率减少48%,显著优于基线方法(PPO)。

  

亮点与结论

亮点

• 提出生成式策略驱动的HAC框架,融合离散与连续时间强化学习(RL),攻克自动驾驶事件响应难题

• 开发HJ-DDPG算法,通过延迟策略更新(DPU)和动态参数噪声(NoisyNet)模块,显著抑制传统RL的动作波动

结论

为解决离散时间RL在障碍物避让和变道场景中的动作振荡问题,本文提出创新的生成式策略驱动HAC框架。该框架利用执行器(Actor)生成Hamilton-Jacobi-Bellman(HJB)最优控制难以探索的动作策略,有效缓解传统RL固定间隔采样导致的性能衰减。基于此开发的HJ-DDPG算法,在高速测试中碰撞率仅4%,加加速度(0.62 m/s3)和转向速率(1.41 rad/s)较基线(PPO)分别降低52%和48%,实现了更平滑安全的操控。

作者贡献声明

张鸿涛:软件构建与方法设计

王金强:论文撰写、可视化与核心概念提出

张胜杰:论文审阅、资源协调与数据管理

江元波:算法验证与理论分析

李梦玲:实验验证与可视化

雍斌斌:论文审阅与项目管理

利益冲突声明

作者声明无任何可能影响本研究的财务或个人关系。

(注:翻译严格遵循原文专业表述,如HJB、DPU等术语保留英文缩写,物理量单位使用/标签规范标注,并采用生动句式如"攻克难题""显著抑制"增强可读性。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号