Sarsa-Augmented Off-Policy 强化学习
《IEEE Transactions on Cognitive and Developmental Systems》:Sarsa-Augmented Off-Policy Reinforcement Learning
【字体:
大
中
小
】
时间:2025年11月22日
来源:IEEE Transactions on Cognitive and Developmental Systems 4.9
编辑推荐:
在线off-policy强化学习中的外推误差问题可通过Sarsa轨迹数据正则化解决,研究提出ORPE方法将Q值正则化融入策略评估,再结合最大熵Actor-Critic构建OR-AC算法,实验证明其收敛性、稳定性和性能优于主流算法。
摘要:
在经典的在线离策略强化学习(RL)中,从目标策略中采样的动作被用来计算用于更新Q函数的时间差分目标。数据收集策略与目标策略之间的差异可能会导致某些外推误差,从而误导策略评估。在这项工作中,将基于状态-动作-奖励-状态-动作(Sarsa)风格轨迹数据得出的Q值作为正则化项纳入其中,从而形成了一种Sarsa增强型在线策略正则化评估(ORPE)方法。这种操作引入了历史轨迹信息,减少了外推误差,并可能提高稳定性。通过将ORPE与最大熵演员-评论家架构相结合,设计了在线策略正则化演员-评论家(OR-AC)算法。我们分析了ORPE的收敛性、条件单调性和价值函数差距。在Mujoco和OpenAI Gym平台上进行了对比实验。结果表明,OR-AC算法优于其他主流的在线RL算法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号