注意力优先的经验回放及其在自动驾驶汽车中的应用:从更具信息量的经验中学习有助于提升训练质量

《IEEE Systems, Man, and Cybernetics Magazine》:Attention Prioritized Experience Replay With Application to Self-Driving Cars: Learning From More Informative Experiences Helps Improve the Training Quality

【字体: 时间:2025年11月21日 来源:IEEE Systems, Man, and Cybernetics Magazine 1.5

编辑推荐:

  自注意力机制与动态优先级回放结合的深度强化学习训练优化方法,通过构建基于视觉焦点评分的样本选择机制,提升自动驾驶场景中DQN训练效率。在Carla仿真平台验证表明,该方法通过高频回放高价值状态-动作序列,有效降低80%训练所需样本量,同时保持95%以上原始控制性能。

  

摘要:

深度强化学习(DRL)作为解决自动驾驶汽车控制相关联任务的一种强大方法而脱颖而出。为了严格执行控制任务,DRL模型不可避免地依赖于高质量的观测数据,而这又使得这些模型的训练在计算上非常昂贵。因此,提高DRL模型的训练效率至关重要,尤其是对于面临复杂驾驶场景的自动驾驶汽车而言。本文提出了一种基于注意力的新型目标采样方法,以改进深度Q网络的训练。具体来说,我们采用了一种具有多头注意力机制的卷积神经网络架构,来增强智能体对场景中显著对象的关注。该工作的贡献在于构建了一种基于智能体每个经验所获得注意力水平的评分机制。通过利用每个经验元组中的当前状态和下一个状态,所构建的评分鼓励智能体在训练中尝试新的行为,从而加快了训练过程。通过使用智能体赋予的注意力评分来动态优先选择场景的回放,我们提出了一种基于注意力的优先经验回放机制,以加速智能体的训练过程。通过更频繁地访问得分较高的转换状态,智能体可以从更具信息量的经验中学习,从而有助于提高训练质量。通过对使用Carla模拟器开发的驾驶场景进行优先级控制和偏差校正,我们获得的结果验证了所提出采样方案的可行性和优越性。

深度强化学习(DRL)作为解决自动驾驶汽车控制相关联任务的一种强大方法而脱颖而出。为了严格执行控制任务,DRL模型不可避免地依赖于高质量的观测数据,而这又使得这些模型的训练在计算上非常昂贵。因此,提高DRL模型的训练效率至关重要,尤其是对于面临复杂驾驶场景的自动驾驶汽车而言。本文提出了一种基于注意力的新型目标采样方法,以改进深度Q网络的训练。具体来说,我们采用了一种具有多头注意力(MHA)机制的卷积神经网络(CNN)架构,来增强智能体对场景中显著对象的关注。该工作的贡献在于构建了一种基于智能体每个经验所获得注意力水平的评分机制。通过利用每个经验元组中的当前状态和下一个状态,所构建的评分鼓励智能体在训练中尝试新的行为,从而加快了训练过程。通过使用智能体赋予的注意力评分来动态优先选择场景的回放,我们提出了一种基于注意力的优先经验回放(PER)机制,以加速智能体的训练过程。通过更频繁地访问得分较高的转换状态,智能体可以从更具信息量的经验中学习,从而有助于提高训练质量。通过对使用Carla模拟器开发的驾驶场景进行优先级控制和偏差校正,我们获得的结果验证了所提出采样方案的可行性和优越性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号