多步深度强化学习在部分可观测马尔可夫决策过程中的实验研究:性能差异、机制分析与改进策略

《Neural Networks》:Experimental Study on The Effect of Multi-step Deep Reinforcement Learning in POMDPs

【字体: 时间:2026年01月02日 来源:Neural Networks 6.3

编辑推荐:

  本文针对深度强化学习(DRL)在部分可观测马尔可夫决策过程(POMDP)中的性能差异问题,系统研究了PPO、TD3和SAC三种主流算法。研究发现,在MDP任务中表现优异的TD3和SAC在POMDP设置下性能显著下降,而PPO却展现出相对优势。通过多步自举(multi-step bootstrapping)等技术改进,研究人员成功提升了TD3和SAC在POMDP环境中的鲁棒性。这项研究为DRL算法在现实机器人控制等复杂场景中的应用提供了重要指导。

  
在人工智能领域,深度强化学习(Deep Reinforcement Learning, DRL)已经在游戏对弈、机器人控制等任务中取得了令人瞩目的成就。然而,这些成功大多建立在马尔可夫决策过程(Markov Decision Process, MDP)的理想假设之上——智能体能够完全观测到环境的真实状态。现实世界往往更加复杂,传感器噪声、信息缺失等问题使得智能体只能获得部分观测信息,这就形成了部分可观测马尔可夫决策过程(Partially Observable MDP, POMDP)。当研究人员将专为MDP设计的DRL算法直接应用于POMDP场景时,出现了一个令人困惑的现象:在某些情况下,理论上更先进的算法反而表现不佳。
这一现象在机器人控制领域尤为突出。以双足步行机器人Walker2D为例,当观测信息中加入随机噪声模拟真实传感器数据时,近端策略优化(Proximal Policy Optimization, PPO)算法的表现意外地超过了双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)和柔性演员-评论家(Soft Actor-Critic, SAC)这两种在MDP任务中通常表现更优的算法。这一“意外结果”引发了研究团队的深入思考:为什么会出现这种性能逆转?这种现象是否具有普遍性?其背后的机制是什么?
为了回答这些问题,Lingheng Meng等人开展了一项系统的实验研究,相关成果发表在《Neural Networks》期刊上。研究团队设计了严谨的实验方案,在四种典型的连续控制任务(Ant、HalfCheetah、Hopper和Walker2D)上构建了多种POMDP变体,包括随机噪声(POMDP-RN)、速度信息移除(POMDP-RV)、观测闪烁(POMDP-FLK)和随机传感器丢失(POMDP-RSM)等场景。通过对比PPO、TD3和SAC在这些环境中的表现,研究人员验证了“意外结果”的普遍性,并进一步探究了多步自举(multi-step bootstrapping)和探索策略对算法性能的影响。
研究采用了多种关键技术方法,包括多步自举技术(通过n步经验轨迹更新值函数)、策略优化中的保守更新机制(如PPO中的剪切函数)、不同的探索策略(如TD3的高斯动作噪声和SAC的熵正则化),以及用于分析的高维数据可视化技术(如TriMap降维)。实验设计涵盖了16种不同的POMDP场景,每种算法在三种随机种子下进行测试,确保结果的统计显著性。

5. Generalization of the Unexpected Result on Other Tasks

研究团队首先验证了“意外结果”在其他任务上的泛化能力。实验结果表明,在大多数MDP任务中,TD3和SAC确实优于PPO,这与现有文献一致。然而,当环境变为POMDP时,情况发生了逆转:在16个POMDP任务中的11个上,PPO的表现超过了TD3和SAC,且多数情况下差异具有统计显著性。更令人惊讶的是,在某些POMDP场景中(如Ant的POMDP-RV和Hopper的POMDP-RSM),PPO的性能甚至比在对应MDP中有所提升,而TD3和SAC在所有POMDP任务中都经历了明显的性能下降。这一发现证实了“意外结果”的普遍性,警示研究者不能简单地将MDP任务上的算法性能排名直接推广到POMDP场景。

6. Analysing and Improving Robustness to Partial Observability

为探究现象背后的机制,研究人员从两个关键差异入手进行分析:一是PPO使用了多步自举(λ-return和Monte-Carlo return),而TD3和SAC主要依赖单步自举;二是算法的探索策略不同,PPO采用保守的策略更新方式,而TD3和SAC鼓励更多探索。

6.0.1. The Potential Effect of Multi-step Bootstrapping on Passing Temporal Information

针对多步自举的差异,研究团队提出了关键假设:多步自举能够传递单步自举无法捕获的时序信息,从而增强算法对部分观测的鲁棒性。为验证这一假设,研究人员开发了多步版本的TD3和SAC(分别称为MTD3(n)和MSAC(n)),其中n表示自举步长。实验结果显示,当n>1时,MTD3和MSAC在大多数POMDP任务上的性能显著优于其单步版本。特别是在n=5时,改进效果最为明显——MTD3(5)在14/16的POMDP任务上显著优于TD3,MSAC(5)在15/16的任务上显著优于SAC。有趣的是,多步自举带来的性能提升甚至与专门为POMDP设计的LSTM-TD3算法相当,这表明多步自举是提升DRL算法在POMDP中性能的有效策略。

7.3. Observation and Action Coverage of Policy With One-step or Multi-step Bootstrapping

通过高维数据可视化技术,研究人员深入分析了单步与多步自举策略在观测和动作覆盖上的差异。结果显示,MTD3(5)学习到的策略与TD3有显著不同,其观测和动作空间覆盖范围更广,且与更高奖励的动作相关联。这表明多步自举不仅改变了值函数估计方式,还引导智能体探索了不同的状态-动作空间区域,从而找到了更优的策略。

7.4. Effect of Accumulated Reward

为进一步探究多步自举的作用机制,研究团队检验了另一个假设:使用累积奖励(多步奖励的平均或求和)而非单步奖励能否产生类似多步自举的效果。实验结果表明,这一假设被否定——使用累积奖励并不能 consistently 提升TD3和SAC在POMDP上的性能,且改进幅度远不如多步自举明显。这说明多步自举的有效性不能简单归因于奖励信号的改变,而是与值函数估计的时序信息传递机制密切相关。

7.5. Results on Investigating the Effect of the Exploration Strategies

针对探索策略的差异,研究人员检验了另一个假设:减少探索可能增强TD3和SAC在POMDP中的鲁棒性。实验结果显示,调整探索参数(SAC的熵正则化系数α和TD3的动作噪声σ)并不能 consistently 改善它们在POMDP上的性能。相反,增加PPO的探索性(通过增大剪切比ε)确实会降低其性能。这表明探索策略的差异只能部分解释“意外结果”,而多步自举的作用机制更为关键。

8. Discussion

本研究通过系统的实验分析,揭示了DRL算法在MDP和POMDP环境中性能差异的普遍性,并验证了多步自举在提升POMDP性能中的关键作用。研究发现,PPO通过其保守的策略更新机制在POMDP中保持鲁棒性,而TD3和SAC则可通过引入多步自举来显著改善性能。这一发现对实际应用具有重要指导意义:当发现PPO在某个任务上表现优于TD3或SAC时,这可能是该任务实际上属于POMDP的信号,提示我们需要重新设计观测空间或选择更适合POMDP的算法。
研究的局限性在于尚未完全从理论上阐明多步自举的作用机制,且实验主要集中于连续控制任务。未来的研究方向包括:深入理论分析多步自举的机制,将研究成果推广到离散控制任务和更高维的感官输入(如图像、3D点云),以及开发能够自动检测任务是否为POMDP的工具。

9. Conclusion and Future Works

本研究系统探讨了多步深度强化学习在POMDP中的效果,揭示了算法在MDP和POMDP环境下性能差异的普遍现象,并验证了多步自举作为有效改进策略的价值。研究成果不仅加深了对DRL算法在部分可观测环境下行为的理解,也为算法选择和改进提供了实用指导。随着DRL在自动驾驶、机器人控制等现实场景中的广泛应用,对POMDP问题的深入理解将变得越来越重要。这项研究为构建更鲁棒、更适应现实世界复杂性的DRL算法奠定了重要基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号