基于低秩正则化的样本高效强化学习:理论分析与应用验证

【字体: 时间:2025年08月01日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出了一种基于低秩正则化的强化学习(RL)方法,通过理论分析和数值模拟验证了低秩性在状态-动作价值函数(Q-function)估计中的优势。作者定义了低秩函数概念,采用核范数惩罚级数估计方法,建立了估计器的风险边界,证明其比传统非低秩估计器具有更快的收敛速率。研究为连续状态/动作空间的马尔可夫决策过程(MDP)提供了样本高效的解决方案,并通过"移动盒子"控制任务验证了方法的实用性。

  

方法论亮点

我们通过定义定义域为[0,1]d的低秩函数来构建方法框架,将其视为[0,1]d1×[0,1]d2上的双变量函数。在温和正则性假设下,函数可展开为f(s,a)=∑j=1σjf1j(s)f2j(a),这本质上是积分算子L的奇异值分解。

核心成果

假设2

转移概率分布P(·|s,a)和行为策略的密度函数均需一致有界。

引理1

在假设2下,最优Q函数与策略πT的Q函数满足‖Q*-QπT?γ/(1-γ)2·max1≤t≤T估计误差。

仿真实验

设计"移动盒子"控制任务验证方法:

  • 状态si∈[-1,1]表示盒子当前位置

  • 动作ai~Uniform(-1,1)驱动移动

    通过对比全秩(FR)与低秩(LR)方法,证明LR在样本效率上的显著优势。

研究结论

低秩函数概念能有效降低Q函数估计维度,理论风险边界证实其可获得更快统计收敛速率。虽然当前研究限于简单模型,但该方法有望拓展至更复杂场景。

作者贡献声明

刘嘉敏:可视化|方法构建|初稿撰写|软件实现

连恒:文稿修订|形式分析|概念设计|研究监督

利益声明

作者声明无潜在竞争性利益关系

致谢

感谢匿名评审的宝贵意见,本研究获国家自然科学基金(12371297)及香港研资局项目(11300519/11300721/11311822)支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号