
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用特权信息进行部分可观测的强化学习
《IEEE Transactions on Games》:Leveraging Privileged Information for Partially Observable Reinforcement Learning
【字体: 大 中 小 】 时间:2025年11月14日 来源:IEEE Transactions on Games 2.8
编辑推荐:
强化学习在部分可观测环境中面临观测信息缺失和策略泛化困难,本文提出演员-双批评家(ACC)框架,通过动态协调基于部分观测和元状态的两种批评家,优化奖励计算以加速学习并减少偏差,在QuestBall、Minigrid、Atari及DouDizhu等任务中验证有效性。
近年来,强化学习(RL)取得了显著的进展[1]、[2]、[3],在多个领域展现了出色的效果。这一点在游戏应用中尤为明显,包括Atari游戏[4]、[5]、[6]、纸牌游戏[7]、[8]、[9]、[10]以及多人在线战斗竞技场游戏[11]、[12]、[13]、[14]。许多这些场景都涉及部分可观测性。这些问题通常被定义为部分可观测的马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDPs)。在POMDP任务中,智能体无法获得完整的系统信息,而这些信息对于推断下一个观测结果和确定奖励至关重要。相反,智能体必须依赖接收到的部分观测数据来推断这些信息,并进而学习如何做出有效的决策。这种固有的挑战增加了学习最优策略的复杂性。有趣的是,包含私有信息的“神谕状态”可能在训练期间是可用的。例如,在纸牌游戏中[15],可以从训练模拟器中直接获取其他玩家的手牌信息。在机器人控制任务[16]中,虽然部署时只能获得低成本的RGB图像,但可以在训练期间访问高精度传感器记录的底层状态。人类专家可以通过重新审视这些私有信息来改进他们的策略。
生物通微信公众号
知名企业招聘