Sarsa-Augmented Off-Policy 强化学习

《IEEE Transactions on Cognitive and Developmental Systems》:Sarsa-Augmented Off-Policy Reinforcement Learning

【字体: 时间:2025年11月22日 来源:IEEE Transactions on Cognitive and Developmental Systems 4.9

编辑推荐:

  在线off-policy强化学习中的外推误差问题可通过Sarsa轨迹数据正则化解决,研究提出ORPE方法将Q值正则化融入策略评估,再结合最大熵Actor-Critic构建OR-AC算法,实验证明其收敛性、稳定性和性能优于主流算法。

  

摘要:

在经典的在线离策略强化学习(RL)中,从目标策略中采样的动作被用来计算用于更新Q函数的时间差分目标。数据收集策略与目标策略之间的差异可能会导致某些外推误差,从而误导策略评估。在这项工作中,将基于状态-动作-奖励-状态-动作(Sarsa)风格轨迹数据得出的Q值作为正则化项纳入其中,从而形成了一种Sarsa增强型在线策略正则化评估(ORPE)方法。这种操作引入了历史轨迹信息,减少了外推误差,并可能提高稳定性。通过将ORPE与最大熵演员-评论家架构相结合,设计了在线策略正则化演员-评论家(OR-AC)算法。我们分析了ORPE的收敛性、条件单调性和价值函数差距。在Mujoco和OpenAI Gym平台上进行了对比实验。结果表明,OR-AC算法优于其他主流的在线RL算法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号