
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生成式策略驱动的HAC强化学习框架在自动驾驶事件响应中的创新应用
【字体: 大 中 小 】 时间:2025年08月29日 来源:Future Generation Computer Systems 6.2
编辑推荐:
本文提出了一种生成式策略驱动的Hamilton-Jacobi-Bellman Actor-Critic(HAC)强化学习框架,通过整合连续时间与离散时间强化学习(RL),解决了自动驾驶(AD)中障碍物避让和变道场景下的动作振荡问题。创新性地采用Lipschitz约束动作值函数和HJ-DDPG算法(含延迟策略更新和动态参数噪声模块),实验显示其在高频决策下平均加加速度降低52%,转向速率减少48%,显著优于基线方法(PPO)。
亮点与结论
亮点
• 提出生成式策略驱动的HAC框架,融合离散与连续时间强化学习(RL),攻克自动驾驶事件响应难题
• 开发HJ-DDPG算法,通过延迟策略更新(DPU)和动态参数噪声(NoisyNet)模块,显著抑制传统RL的动作波动
结论
为解决离散时间RL在障碍物避让和变道场景中的动作振荡问题,本文提出创新的生成式策略驱动HAC框架。该框架利用执行器(Actor)生成Hamilton-Jacobi-Bellman(HJB)最优控制难以探索的动作策略,有效缓解传统RL固定间隔采样导致的性能衰减。基于此开发的HJ-DDPG算法,在高速测试中碰撞率仅4%,加加速度(0.62 m/s3)和转向速率(1.41 rad/s)较基线(PPO)分别降低52%和48%,实现了更平滑安全的操控。
作者贡献声明
张鸿涛:软件构建与方法设计
王金强:论文撰写、可视化与核心概念提出
张胜杰:论文审阅、资源协调与数据管理
江元波:算法验证与理论分析
李梦玲:实验验证与可视化
雍斌斌:论文审阅与项目管理
利益冲突声明
作者声明无任何可能影响本研究的财务或个人关系。
(注:翻译严格遵循原文专业表述,如HJB、DPU等术语保留英文缩写,物理量单位使用/标签规范标注,并采用生动句式如"攻克难题""显著抑制"增强可读性。)
生物通微信公众号
知名企业招聘