
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于海马体高奖赏图与无模型Q梯度惩罚的路径规划与运动控制新范式
【字体: 大 中 小 】 时间:2025年07月02日 来源:Neural Networks 6.0
编辑推荐:
本研究针对长时程任务中目标导向分层强化学习(HRL)的样本效率与泛化性问题,创新性地提出受海马体-纹状体双控制器启发的HG2P框架。通过高回报(HR)采样构建记忆图模拟海马体回放偏好,并设计无模型梯度惩罚(MF-GP)消除对动力学模型的依赖。实验表明HG2P+ACLG在导航与机器人操控任务中显著超越现有算法,为类脑智能决策提供新思路。
在人工智能与神经科学交叉领域,目标导向的分层强化学习(Hierarchical Reinforcement Learning, HRL)正成为解决复杂长时程任务的重要范式。然而现有方法面临两大瓶颈:一是传统均匀采样构建的记忆图未能充分利用高价值经验,二是模型依赖的Lipschitz约束限制了算法在动态环境中的泛化能力。这些挑战与生物神经系统的高效决策机制形成鲜明对比——海马体(hippocampus)通过优先回放高奖赏记忆来优化空间导航,纹状体(striatum)则实现无模型的运动控制,这种双系统协作模式为人工智能算法设计提供了重要启示。
针对这一科学问题,国内研究人员在《Neural Networks》发表的研究中,创新性地提出HG2P框架。该工作首次将海马体-纹状体双控制器假说转化为可计算的HRL架构,通过高回报采样(High-reward Sampling)策略模拟海马体对高奖赏记忆的偏好,同时推导出无模型Q梯度惩罚(Model-free Gradient Penalty)来替代传统的模型依赖约束。关键技术包括:1)基于实例决策理论设计非均匀采样权重函数;2)通过高阶策略梯度分析推导Q函数Lipschitz常数上界;3)在ACLG框架中集成双模块形成完整算法。
高回报采样增强记忆图效率
研究发现传统均匀采样会稀释高价值经验的影响。通过分析海马体回放神经机制,团队设计基于轨迹累积奖赏的加权采样策略,使记忆图中高回报路径的边权重获得指数级增长。在Ant Push任务中,该策略使有效样本利用率提升37%,且显著加速了关键路径的强化过程。
无模型梯度惩罚提升鲁棒性
突破性地发现Q函数对状态-子目标输入的Lipschitz常数上界与高阶策略存在解析关系,据此设计出完全脱离环境模型的梯度惩罚项。在Dynamic Ant Maze测试中,该模块使OOD(分布外)状态的价值估计误差降低62%,同时减少约40%的灾难性失效事件。
双模块协同效应验证
在7种基准任务(包括Robotic Arm Stack)的系统测试中,HG2P+ACLG相比基线HIGL算法平均任务完成率提升28.6%。特别在稀疏奖赏场景下,高回报采样使探索效率产生量级突破,而无模型约束使训练稳定性提高3倍以上。
这项研究的重要意义在于:首次建立海马体回放机制与强化学习采样策略的定量关联,为类脑决策算法提供生物学证据;提出的无模型约束方法开辟了Lipschitz连续性研究的新路径;整套框架在保持计算效率的同时实现性能突破,为机器人自主导航等现实应用提供新工具。研究也指出未来方向:需优化高回报采样的计算开销,并探索在部分可观测环境中的适应性改进。这项工作标志着神经科学启发的AI研究进入更精细的机制模拟阶段,为发展具有生物合理性的智能决策系统奠定基础。
生物通微信公众号
知名企业招聘