高效无约束微调:离线至在线强化学习突破分布偏移瓶颈

【字体: 时间:2025年09月19日 来源:Neural Networks 6.3

编辑推荐:

  本文提出一种高效无约束微调框架,通过动态表征学习(dynamics representation learning)、层归一化(Layer Normalization)和高频值网络更新策略,解决离线强化学习(Offline RL)向在线强化学习(Online RL)过渡时的分布偏移(distributional shift)和值函数估计偏差问题,在D4RL基准测试中显著提升样本效率与策略性能。

  

亮点(Highlights)

  1. 1.

    我们提出一种高效无约束微调离线至在线强化学习(O2O RL)算法,通过在微调阶段对值网络采用高频更新策略,校正因分布偏移引起的预训练值网络估计偏差。

  2. 2.

    我们从理论上证明,对值网络应用层归一化(Layer Normalization)可通过归一化层权重的范数限制Q值(包括数据集外的状态-动作对),从而抑制灾难性发散。

  3. 3.

    在预训练和微调阶段,我们引入动态表征学习(dynamics representation learning),通过建模状态与动作间的潜在相互作用来提取有意义的特征,增强代理对环境的理解,进而加速微调过程。

  4. 4.

    在D4RL基准测试(Fu et al., 2021)上进行了广泛的对比实验,表明我们的算法仅需10万次在线交互即可在各种任务中优于最先进的(SOTA)O2O RL算法。还进行了消融研究以验证算法各组成部分的有效性。

结论与未来工作(Conclusion and Future Work)

本研究探索了在离线至在线强化学习(O2O RL)中有效加速无约束微调并解决由分布偏移引起的值函数估计偏差的方法。我们通过三项关键技术实现了这一目标:动态表征学习(dynamics representation learning)、层归一化(Layer Normalization)以及对值网络采用高UTD比率(update-to-data ratio)。有效的动态表征使代理能更好地理解环境的底层动态,从而加速在线微调。层归一化限制了Q值的过度外推,防止了灾难性的值函数发散。高频值网络更新策略提高了样本效率,并有助于快速纠正因分布偏移而产生的值函数估计偏差。在D4RL基准测试上的实验结果表明,我们的算法在样本效率和最终性能方面均优于现有的SOTA算法。未来的工作将探索更先进的技术来缓解分布偏移,例如将不确定性估计纳入值函数学习,以及研究我们提出的框架在不同领域的适用性,例如医疗保健(healthcare)和机器人技术(robotics)。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号