伪分布精英评论家框架:强化学习中价值估计的精准优化新范式

【字体: 时间:2025年08月26日 来源:Neural Networks 6.3

编辑推荐:

  本文提出创新的伪分布精英评论家(Pseudo-distribution Elite Critics, PEC)框架,通过伪分布表征(pseudo-distribution representation)融合不确定性度量(uncertainty measurement)和截尾均值(trimmed mean)技术,在单评论家架构下实现多分布建模,显著提升Q值估计精度。该框架突破传统集成学习(ensemble)与分布RL(distributional RL)的计算瓶颈,在MuJoCo基准测试中展现优于REDQ、TQC等SOTA方法的偏差平衡能力(M≥2,N atoms),为高维连续控制问题提供轻量级解决方案。

  

亮点

统一PEC框架:我们提出整合伪分布表征、不确定性度量和截尾均值技术的创新机制,动态解决RL价值估计中的偏差(bias)与方差(variance)问题。

精度与稳定性提升:通过选择可靠评论家(critic)计算时序差分目标(TD target),并利用截尾均值操作同时缓解高估(overestimation)和低估(underestimation)。

全面验证:大量实验证明PEC在准确性和计算效率上均超越传统分布RL(如C51)和集成方法(如REDQ),且复杂度更低。

相关研究

Q学习的最大化更新规则虽能稳定策略梯度算法(如DDPG),但其类似上置信界(UCB)的特性会导致高估偏差。现有方法通过正则化项(Fox et al. 2016)、偏差校正(Lee et al. 2013)或多评论家解耦(van Hasselt 2016)缓解问题,但可能引发悲观估计(pessimistic Q-values)阻碍探索。

方法论

基于马尔可夫决策过程(MDP)标准建模,PEC的核心创新在于:

  1. 1.

    伪分布表征:单评论家输出N原子(N atoms)模拟多分布特性,避免多评论家(M≥2)的冗余计算。

  2. 2.

    动态偏差平衡:截尾均值剔除极端值,在UCB和保守估计间自适应调节。

实验验证

在MuJoCo机器人控制任务中,PEC相比SOTA算法展现:

• 样本效率提升30%(p<0.01)

• 策略稳定性提高(方差降低42%)

结论

PEC通过轻量级架构实现分布RL的表达力与集成方法的鲁棒性,为复杂环境下的智能体训练提供新范式。

(注:翻译严格遵循生命科学领域术语规范,如TD target保留英文缩写并标注中文全称,数学符号如M≥2保持原格式,去除了文献引用[1]等标识)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号