
-
生物通官微
陪你抓住生命科技
跳动的脉搏
伪分布精英评论家框架:强化学习中价值估计的精准优化新范式
【字体: 大 中 小 】 时间:2025年08月26日 来源:Neural Networks 6.3
编辑推荐:
本文提出创新的伪分布精英评论家(Pseudo-distribution Elite Critics, PEC)框架,通过伪分布表征(pseudo-distribution representation)融合不确定性度量(uncertainty measurement)和截尾均值(trimmed mean)技术,在单评论家架构下实现多分布建模,显著提升Q值估计精度。该框架突破传统集成学习(ensemble)与分布RL(distributional RL)的计算瓶颈,在MuJoCo基准测试中展现优于REDQ、TQC等SOTA方法的偏差平衡能力(M≥2,N atoms),为高维连续控制问题提供轻量级解决方案。
亮点
• 统一PEC框架:我们提出整合伪分布表征、不确定性度量和截尾均值技术的创新机制,动态解决RL价值估计中的偏差(bias)与方差(variance)问题。
• 精度与稳定性提升:通过选择可靠评论家(critic)计算时序差分目标(TD target),并利用截尾均值操作同时缓解高估(overestimation)和低估(underestimation)。
• 全面验证:大量实验证明PEC在准确性和计算效率上均超越传统分布RL(如C51)和集成方法(如REDQ),且复杂度更低。
相关研究
Q学习的最大化更新规则虽能稳定策略梯度算法(如DDPG),但其类似上置信界(UCB)的特性会导致高估偏差。现有方法通过正则化项(Fox et al. 2016)、偏差校正(Lee et al. 2013)或多评论家解耦(van Hasselt 2016)缓解问题,但可能引发悲观估计(pessimistic Q-values)阻碍探索。
方法论
基于马尔可夫决策过程(MDP)标准建模,PEC的核心创新在于:
伪分布表征:单评论家输出N原子(N atoms)模拟多分布特性,避免多评论家(M≥2)的冗余计算。
动态偏差平衡:截尾均值剔除极端值,在UCB和保守估计间自适应调节。
实验验证
在MuJoCo机器人控制任务中,PEC相比SOTA算法展现:
• 样本效率提升30%(p<0.01)
• 策略稳定性提高(方差降低42%)
结论
PEC通过轻量级架构实现分布RL的表达力与集成方法的鲁棒性,为复杂环境下的智能体训练提供新范式。
(注:翻译严格遵循生命科学领域术语规范,如TD target保留英文缩写并标注中文全称,数学符号如M≥2保持原格式,去除了文献引用[1]等标识)
生物通微信公众号
知名企业招聘