利用特权信息进行部分可观测的强化学习

《IEEE Transactions on Games》:Leveraging Privileged Information for Partially Observable Reinforcement Learning

【字体: 时间:2025年11月14日 来源:IEEE Transactions on Games 2.8

编辑推荐:

  强化学习在部分可观测环境中面临观测信息缺失和策略泛化困难,本文提出演员-双批评家(ACC)框架,通过动态协调基于部分观测和元状态的两种批评家,优化奖励计算以加速学习并减少偏差,在QuestBall、Minigrid、Atari及DouDizhu等任务中验证有效性。

  

摘要:

强化学习在多种场景中取得了显著的成功。然而,在部分可观测的游戏中学习最优策略仍然是一个巨大的挑战。在游戏过程中,状态中的关键私有信息往往被隐藏起来,但理想情况下,这些信息应该在训练期间是可访问和可利用的。以往的研究主要集中在完全基于部分观测或“神谕状态”来制定策略。然而,这些方法在实现有效泛化方面常常遇到障碍。为了克服这一挑战,我们提出了演员-交叉评论家(Actor-Cross-Critic, ACC)学习框架,该框架结合了部分观测和神谕状态。ACC通过协调两个评论家并调用最大化操作机制来动态地在它们之间切换,从而实现了这一目标。这种方法在计算优势时鼓励选择更高的价值,从而加速学习过程并减少部分可观测性下的偏差。一些理论分析表明,与仅使用神谕状态的演员-评论家学习方法相比,ACC在学习最优策略方面表现更好。我们通过在决策任务(如QuestBall、Minigrid、Atari以及具有挑战性的纸牌游戏DouDizhu)中的全面评估,突显了其卓越的性能。

引言

近年来,强化学习(RL)取得了显著的进展[1]、[2]、[3],在多个领域展现了出色的效果。这一点在游戏应用中尤为明显,包括Atari游戏[4]、[5]、[6]、纸牌游戏[7]、[8]、[9]、[10]以及多人在线战斗竞技场游戏[11]、[12]、[13]、[14]。许多这些场景都涉及部分可观测性。这些问题通常被定义为部分可观测的马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDPs)。在POMDP任务中,智能体无法获得完整的系统信息,而这些信息对于推断下一个观测结果和确定奖励至关重要。相反,智能体必须依赖接收到的部分观测数据来推断这些信息,并进而学习如何做出有效的决策。这种固有的挑战增加了学习最优策略的复杂性。有趣的是,包含私有信息的“神谕状态”可能在训练期间是可用的。例如,在纸牌游戏中[15],可以从训练模拟器中直接获取其他玩家的手牌信息。在机器人控制任务[16]中,虽然部署时只能获得低成本的RGB图像,但可以在训练期间访问高精度传感器记录的底层状态。人类专家可以通过重新审视这些私有信息来改进他们的策略。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号