伪分布精英评论家框架：强化学习中价值估计的精准优化新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月26日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出创新的伪分布精英评论家（Pseudo-distribution Elite Critics, PEC）框架，通过伪分布表征（pseudo-distribution representation）融合不确定性度量（uncertainty measurement）和截尾均值（trimmed mean）技术，在单评论家架构下实现多分布建模，显著提升Q值估计精度。该框架突破传统集成学习（ensemble）与分布RL（distributional RL）的计算瓶颈，在MuJoCo基准测试中展现优于REDQ、TQC等SOTA方法的偏差平衡能力（M≥2，N atoms），为高维连续控制问题提供轻量级解决方案。

亮点

• 统一PEC框架：我们提出整合伪分布表征、不确定性度量和截尾均值技术的创新机制，动态解决RL价值估计中的偏差（bias）与方差（variance）问题。

• 精度与稳定性提升：通过选择可靠评论家（critic）计算时序差分目标（TD target），并利用截尾均值操作同时缓解高估（overestimation）和低估（underestimation）。

• 全面验证：大量实验证明PEC在准确性和计算效率上均超越传统分布RL（如C51）和集成方法（如REDQ），且复杂度更低。

相关研究

Q学习的最大化更新规则虽能稳定策略梯度算法（如DDPG），但其类似上置信界（UCB）的特性会导致高估偏差。现有方法通过正则化项（Fox et al. 2016）、偏差校正（Lee et al. 2013）或多评论家解耦（van Hasselt 2016）缓解问题，但可能引发悲观估计（pessimistic Q-values）阻碍探索。

方法论

基于马尔可夫决策过程（MDP）标准建模，PEC的核心创新在于：

1.
伪分布表征：单评论家输出N原子（N atoms）模拟多分布特性，避免多评论家（M≥2）的冗余计算。
2.
动态偏差平衡：截尾均值剔除极端值，在UCB和保守估计间自适应调节。

实验验证

在MuJoCo机器人控制任务中，PEC相比SOTA算法展现：

• 样本效率提升30%（p<0.01）

• 策略稳定性提高（方差降低42%）

结论

PEC通过轻量级架构实现分布RL的表达力与集成方法的鲁棒性，为复杂环境下的智能体训练提供新范式。

（注：翻译严格遵循生命科学领域术语规范，如TD target保留英文缩写并标注中文全称，数学符号如M≥2保持原格式，去除了文献引用[1]等标识）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号