
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于低秩正则化的样本高效强化学习:理论分析与应用验证
【字体: 大 中 小 】 时间:2025年08月01日 来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出了一种基于低秩正则化的强化学习(RL)方法,通过理论分析和数值模拟验证了低秩性在状态-动作价值函数(Q-function)估计中的优势。作者定义了低秩函数概念,采用核范数惩罚级数估计方法,建立了估计器的风险边界,证明其比传统非低秩估计器具有更快的收敛速率。研究为连续状态/动作空间的马尔可夫决策过程(MDP)提供了样本高效的解决方案,并通过"移动盒子"控制任务验证了方法的实用性。
我们通过定义定义域为[0,1]d的低秩函数来构建方法框架,将其视为[0,1]d1×[0,1]d2上的双变量函数。在温和正则性假设下,函数可展开为f(s,a)=∑j=1∞σjf1j(s)f2j(a),这本质上是积分算子L的奇异值分解。
假设2
转移概率分布P(·|s,a)和行为策略的密度函数均需一致有界。
引理1
在假设2下,最优Q函数与策略πT的Q函数满足‖Q*-QπT‖∞?γ/(1-γ)2·max1≤t≤T估计误差。
设计"移动盒子"控制任务验证方法:
状态si∈[-1,1]表示盒子当前位置
动作ai~Uniform(-1,1)驱动移动
通过对比全秩(FR)与低秩(LR)方法,证明LR在样本效率上的显著优势。
低秩函数概念能有效降低Q函数估计维度,理论风险边界证实其可获得更快统计收敛速率。虽然当前研究限于简单模型,但该方法有望拓展至更复杂场景。
刘嘉敏:可视化|方法构建|初稿撰写|软件实现
连恒:文稿修订|形式分析|概念设计|研究监督
作者声明无潜在竞争性利益关系
感谢匿名评审的宝贵意见,本研究获国家自然科学基金(12371297)及香港研资局项目(11300519/11300721/11311822)支持。
生物通微信公众号
知名企业招聘