
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于海马记忆机制的强化学习框架HAMI:实现高效上下文序列决策的突破性进展
【字体: 大 中 小 】 时间:2025年07月13日 来源:Scientific Reports 3.8
编辑推荐:
为解决强化学习(RL)在上下文依赖序列任务中样本效率低、计算成本高的问题,研究人员开发了受海马体启发的HAMI框架,通过符号索引和分层记忆机制实现了98.39%的决策准确率,推理速度较基线提升24倍,为类脑AI硬件设计提供了新思路。
在人工智能领域,强化学习(RL)虽在游戏、机器人控制等方面取得突破,但其在上下文依赖的序列决策任务中仍面临两大瓶颈:一是需要大量环境交互导致样本效率低下,二是传统方法难以有效捕捉非马尔可夫情境中的时序关联。这些问题与生物智能的高效决策能力形成鲜明对比——人类和动物能通过海马体快速编码和检索情景记忆,在复杂环境中实现灵活决策。
美国乔治梅森大学电气与计算机工程系的Maryam Parsa团队在《Scientific Reports》发表的研究中,借鉴海马体的记忆处理机制,开发了海马增强记忆整合(HAMI)框架。该研究通过三个关键技术突破:1) 基于对比学习的知识表征预训练;2) 模拟CA3区功能的符号索引关联记忆;3) 受CA1区启发的序列缓冲器,构建了支持上下文序列推理的强化学习新范式。实验采用自主研发的神经科学启发的分层上下文序列(HiCoS)环境验证,结果显示HAMI在决策准确率(98.39%)、推理延迟(6.9ms)和内存占用(1.78MB)上全面超越基线模型。
主要技术方法
研究团队首先构建了Colored-MNIST数据集作为HiCoS环境的基础,通过Siamese网络进行事件(数字)和上下文(颜色)的特征预训练。HAMI框架包含符号索引模块(6-bit编码)、序列缓冲器(滑动窗口记忆)和情景记忆库,采用余弦相似度进行记忆检索,并通过NVM-CAM硬件设计方案优化搜索效率。
研究结果
训练动态
HAMI在5000次训练周期内快速收敛,最终平均奖励达2.86,显著优于知识增强型情景控制(Knowledge-Enhanced-EC)的2.61。

硬件兼容性
提出的2T2R(双晶体管双电阻)NVM-CAM架构可实现单周期搜索,电阻式存储器(RRAM)和相变存储器(PCM)等器件使搜索能耗降低至传统方法的1/24。

生物学对应性
HAMI的模块设计精确映射海马体功能:DG区对应模式分离的符号编码,CA3区实现事件-上下文关联,CA1区完成时序整合,前额叶皮层(PFC)模拟动作选择机制。
这项研究的创新性在于首次将海马体的多层次记忆处理机制转化为可工程实现的RL框架。其意义不仅在于13%的准确率提升,更开创了"神经科学原理→算法设计→硬件映射"的跨学科研究范式。特别是符号索引机制与新兴存储器件的天然兼容性,为开发低功耗边缘AI芯片提供了新思路。未来在自动驾驶、医疗诊断等需要实时序列推理的领域具有广阔应用前景。
生物通微信公众号
知名企业招聘