基于符号回归与双代理模型集成的数据高效强化学习研究及其在物理系统中的应用

【字体: 时间:2025年07月17日 来源:Neural Networks 6.0

编辑推荐:

  针对强化学习(RL)在真实环境中样本效率低下的问题,研究人员提出了一种基于符号回归(Symbolic Regression)构建双代理模型(Ensemble of Double Surrogate Models)的创新框架。该方法通过多峰双向叠加随机高斯分布(mp-BSRGD)采样策略建立可解释的动力学模型,结合模型不确定性量化技术,在倒立摆(Inverted Pendulum)、Reacher和Fetch-Push等基准环境中仅需1%的真实交互数据即达到与传统RL相当的性能,为机器人控制等实际应用提供了高数据效率的解决方案。

  

在人工智能领域,强化学习(RL)虽在Atari游戏和围棋等领域取得突破,但其在真实物理系统中的应用仍面临巨大挑战——传统模型无关(Model-Free)方法需要数百万次环境交互,而基于神经网络的黑箱模型又存在可解释性差和建模误差累积等问题。特别是在机器人控制等高风险场景中,低效的样本利用率和模型失配问题严重制约着RL技术的实际落地。

针对这一瓶颈,研究人员创新性地将符号回归(Symbolic Regression)这一可解释建模技术引入强化学习框架。与常规神经网络建模不同,该方法能从有限数据中提取简洁的数学表达式,例如在倒立摆环境中推导出形如xt+1=0.9951xt+(x?t+0.1623at)/(|tan(-1.51xt)|+24.99)的动力学方程,其R2值高达0.994。为克服单一模型偏差,研究团队设计了双代理模型集成架构:通过多峰双向叠加随机高斯分布(mp-BSRGD)采样策略生成差异化数据集,构建相互独立的模型A/B;引入锚模型(Anchor Model)评估 rollout轨迹质量,利用模型间分歧度量化不确定性。这种结构有效避免了策略对错误模型的过拟合,在Fetch-Push任务中将成功率提升至0.98±0.01,数据用量仅为传统方法的0.69%。

关键技术方面,研究主要采用:1) mp-BSRGD多模态采样策略,通过设置N1(μ=2.5,σ=1.25)、N2(μ=1,σ=0.5)和N3(μ=0,σ=0.2)三个高斯分布实现状态空间全覆盖;2) TuringBot符号回归软件进行动力学方程挖掘;3) 集成TD3、SAC等现代RL算法进行策略优化;4) 设置300-2000回合的过渡点实现从模拟到真实环境的平稳迁移。

研究结果显示:在倒立摆这类高动态系统中,传统单一代理模型会出现高达48.62±20.46的奖励波动,而双代理模型集成将性能稳定在732.34±14.04。通过10,400次交互(仅为模型无关RL的0.21%)训练的控制器,在过渡到真实环境后20回合内即可恢复最优性能。与MBPO、PETS等先进模型基方法相比,该方法在保持相当性能的同时,模型参数量减少5-7倍,且具备方程级的可解释性。

这项发表于《Neural Networks》的研究开创性地将符号回归的可解释优势与集成学习的鲁棒性相结合,为机器人控制等领域提供了样本效率提升两个数量级的解决方案。特别是提出的双代理模型架构,通过锚模型引导的保守rollout策略,有效解决了长期困扰模型基RL的误差累积问题。未来研究可进一步探索概率符号回归替代确定性建模,以消除对锚模型的依赖,实现端到端的可解释强化学习框架。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号