受皮质 - 海马回路启发的混合神经网络:为持续学习解锁新潜能

【字体: 时间:2025年02月03日 来源:Nature Communications

编辑推荐:

  本文提出受皮质 - 海马回路启发的混合神经网络(CH-HNN),通过模拟其双重记忆表征,有效缓解持续学习中的灾难性遗忘,在任务和类别增量学习场景中表现出色,为人工智能持续学习发展提供新方向,具有重要研究意义。

  

引言


近年来,人工智能(AI)取得显著进展,像生成式预训练变换器(GPT)等广泛应用于生活各领域。然而,当前 AI 系统在持续学习方面存在严重缺陷,如无法增量添加新数据,会出现灾难性遗忘,且现有方法在实际应用中面临任务识别和内存需求等问题。

与之形成鲜明对比的是,生物系统在增量学习上高效且低能耗。神经科学研究发现,皮质 - 海马回路在情景学习和泛化中起关键作用。其中,内侧前额叶皮质(mPFC)和海马(HPC)的 CA1 区域负责表征相关情景的规律,而齿状回(DG)和 CA3 区域则编码特定记忆。这些区域相互连接形成循环回路,促进情景信息整合、泛化和新概念学习。

基于此,研究团队受皮质 - 海马循环回路启发,开发了一种混合神经网络(CH-HNN)。该网络融合人工神经网络(ANNs)和脉冲神经网络(SNNs),模拟大脑中特定和广义记忆的双重表征。ANNs 擅长处理高空间复杂度数据,类比 mPFC-CA1 回路整合情景规律;SNNs 具有稀疏放电率和低功耗特点,类似 DG-CA3 回路编码特定记忆。同时,研究还引入元可塑性机制,模拟知识积累时突触学习能力的动态变化。

为验证 CH-HNN 在持续学习中的有效性,研究人员在多个数据集上进行任务增量和类别增量学习实验。结果显示,CH-HNN 性能卓越,在可塑性(学习新信息能力)和稳定性(保留先前知识能力)之间实现良好平衡,且能跨数据集转移相关情景信息。此外,CH-HNN 在真实世界应用中适应性和鲁棒性强,在神经形态硬件上集成 SNNs 可显著降低功耗。

结果


皮质 - 海马循环回路与情景学习和泛化


大脑在持续情景学习中并非仅通过单个记忆痕迹表征概念,而是在多个特异性水平处理情景信息,形成广义知识和保留特定细节。互补学习系统理论解释了皮质和海马在记忆处理中的不同但互补的作用。皮质(如 mPFC 和内嗅皮质(EC))负责表征相关经验的广义规律,通过内侧颞叶(MTL)传递到海马。海马的 CA1 区域介导皮质与负责特定记忆表征的 DG 和 CA3 等区域的相互作用,促进新相关概念的学习。

研究简化了神经通路,将代表广义情景信息的神经通路简化为 mPFC-CA1 直接通路,将海马内特定记忆表征相关的电路聚焦于 DG-CA3 通路,形成循环回路。该回路中,mPFC-CA1 通路助力 DG-CA3 通路高效获取新特定记忆,DG-CA3 回路再将新记忆反馈回 mPFC-CA1 回路,促进相关记忆整合,为人工系统持续学习提供了新的计算策略思路。

模拟皮质 - 海马循环回路的混合神经网络设计


基于皮质 - 海马循环回路,研究设计了 CH-HNN 来模拟 mPFC-CA1 和 DG-CA3 电路之间的双向促进作用。利用 ANNs 处理高空间复杂度的能力,开发能学习不同情景或概念间相似性的 ANN,生成调制信号辅助新情景或概念学习。该调制信号反映不同任务或类别的粗粒度输入特征相似性,引导新概念学习。

借助 SNNs 稀疏放电率和低功耗特性,模拟 DG-CA3 电路的新学习功能,使其学习与任务或类别相关的新概念。学习过程中,ANNs 根据视觉输入生成调制信号,像掩码一样选择性激活 SNNs 隐藏层神经元,改变神经元同步状态,实现 SNNs 在 ANNs 引导下自动划分成不同子网,提高学习效率。而且,CH-HNN 中的 ANNs 可离线或长时间训练,与 mPFC-CA1 电路中规律形成较慢的神经机制相符。

向 CH-HNN 引入元可塑性机制


在皮质 - 海马回路中,mPFC-CA1 电路的调制信号可能导致相似情景间误报增加。为解决这一问题,研究引入元可塑性机制。元可塑性指突触表现出可变学习能力,通常受化学神经调节信号(如多巴胺和血清素)调制,可表现为突触棘大小变化。研究推测外侧顶叶皮质(LPC)和外侧前额叶皮质(lPFC)参与调节 DG-CA3 电路的突触元可塑性。

在 SNNs 中实现元可塑性机制时,采用指数元函数模拟生物突触可塑性动态。随着突触权重增加,元函数输出从 1 降至 0,在 SNN 训练优化过程中整合该函数,能使突触学习能力随知识积累逐渐减弱,有效缓解灾难性遗忘。

CH-HNN 在任务增量学习场景中的卓越表现


在任务增量学习场景中,模型需按顺序学习不同类别的任务,并在学习多个任务后识别每个任务。研究使用 sMNIST、pMNIST 和 sCIFAR-100 等数据集进行实验,对比了 CH-HNN 与弹性权重巩固(EWC)、突触智能(SI)和上下文相关门控(XdG)等方法,以及微调后的 SNN 和 ANN 模型。

CH-HNN 中的 ANN 通过确保生成的调制信号相似性与先验知识中相应样本相似性一致来优化,而非依赖直接监督标签,增强了模型对不同任务的适应性。以 pMNIST 数据集为例,ANN 生成的调制信号相关性矩阵与视觉样本相似性矩阵高度吻合,表明 ANN 能有效生成任务相关规律,实现动态情景推理。

实验结果表明,随着任务数量增加,CH-HNN 性能优势愈发明显。在最终增量阶段,CH-HNN 在 pMNIST 和 sCIFAR-100 数据集上大幅超越 EWC、SI 和 XdG 等方法,且跨任务性能一致,实现了稳定性和可塑性的良好平衡。此外,CH-HNN 无需任务 ID,更适用于现实世界应用。

CH-HNN 在类别增量学习场景中的卓越表现


研究进一步在 sMNIST、sCIFAR-100 和 sTiny-ImageNet 等数据集上探索 CH-HNN 在类别增量学习中的应用。在此场景中,模型需增量学习多个类别并识别所有已学类别。

为实现高效学习并减少类别间干扰,采用掩码方法选择性激活当前类别的输出神经元。训练 ANN 时,利用余弦相似性计算不同类别特征图统计量之间的相似性,使其自动生成调制信号。以 sTiny-ImageNet 数据集为例,ANN 生成的调制信号相关性矩阵与视觉样本相关性矩阵相似,证明其能成功构建跨不同类别的相关情景信息。

实验对比了 CH-HNN 与 EWC、SI、XdG 等方法,以及 iCaRL 和 FOSTER 等类别增量学习的先进方法。结果显示,EWC 和 SI 在类别增量学习中表现不佳,而 CH-HNN 无论使用何种神经元模型,均优于其他任务无关方法。随着神经元模型复杂度增加,CH-HNN 性能逐步提升。同时,CH-HNN 在学习过程中动态生成情景相关规律,无需任务 ID,适应性更强。

从先验知识到新概念学习的知识转移


基于 mPFC-CA1 电路从先验知识中学习规律的假设,研究探究 CH-HNN 中的 ANN 能否有效跨数据集转移相关情景知识。实验中,ANN 在 ImageNet 数据集上预训练,然后在 sCIFAR-100 和 sTiny-ImageNet 数据集上评估性能。为确保先验知识的独特性,排除了与 CIFAR-100 和 Tiny-ImageNet 重叠的类别。

结果表明,结合预训练 ANN 的 CH-HNN 在两个数据集上均显著优于其他先进方法,证明其具有跨数据集转移知识的能力。这得益于 ANN 能有效从先验经验中提取规律,调制信号相关性矩阵与样本表示的高度一致性也支持了这一能力。

皮质 - 海马回路中反馈回路的评估


为研究 DG-CA3 到 mPFC-CA1 反馈回路的功能,设计实验让 ANN 在 sCIFAR-100 和 sTiny-ImageNet 数据集上增量学习类别,并采用元可塑性机制减轻遗忘。随着 ANN 增量学习类别,CH-HNN 效率提升,相关性矩阵评估显示,学习所有类别后,其提取情景相关规律的能力增强。这验证了反馈回路在传输新嵌入、促进相关情景泛化中的作用,有助于深入理解支持终身学习的皮质 - 海马神经机制。

损伤实验


通过一系列消融研究,剖析 CH-HNN 中 ANN 调制信号的情景推理和元可塑性机制的贡献。在 pMNIST 数据集实验中,两种机制都对持续学习有重要作用。元可塑性通过平衡新旧知识的保留和整合,降低了情景间差异;情景推理则提高了平均准确率,提升了整体性能。

在 sTiny-ImageNet 数据集的类别增量实验中,情景推理对模型性能提升起关键作用,在 ANN 指导准确性降低时,元可塑性通过平衡新旧知识保留,显著提高了平均准确率。总体而言,情景推理和元可塑性都是 CH-HNN 的重要组成部分。

CH-HNN 在现实世界应用中的适用性和鲁棒性


许多高性能持续学习算法依赖任务预言机进行任务识别,限制了其在现实世界的应用。CH-HNN 专为任务无关学习设计,适用于多种现实场景,且与神经形态硬件中混合 ANN-SNN 架构的发展相契合。在神经形态硬件中,降低 CH-HNN 模型精度至 int8,性能损失极小,同时 SNNs 在新概念学习中比 ANNs 功耗降低 60.82%。

为验证 CH-HNN 的鲁棒性,将其应用于四足机器人的 pMNIST 识别任务和机器人手臂的物体抓取任务。在不同条件下,CH-HNN 均表现出较高的准确率和鲁棒性,证明其在现实场景中的适用性和鲁棒性,且集成 SNNs 结构使其具有低功耗优势。

讨论


人工系统在持续学习中的灾难性遗忘问题备受关注,将受大脑启发的学习机制融入人工算法为解决该问题带来希望。生成式重放模拟皮质和海马管理长短时记忆的互补作用,元可塑性方法引入全局调制机制调整突触可塑性,但现有方法在实际应用中仍存在问题,如生成式重放内存需求大,元可塑性方法在复杂数据上表现不佳,XdG 等方法依赖任务预言机限制了应用。

CH-HNN 集成 ANNs 和 SNNs,受皮质 - 海马循环回路启发,无需任务预言机,在现实应用中性能强大且功耗低。不过,选择合适的神经元模型存在权衡,复杂模型(如 EIF)虽能提高生物真实性和准确性,但计算资源需求大。

从神经机制角度看,CH-HNN 为潜在神经机制提供了间接证据。它通过重置神经同步状态调制前馈回路,与生成式重放方法不同;反馈回路中的新嵌入转移可能增强相关记忆的泛化;大脑特定区域(如 LPC 和 lPFC)可通过化学神经调节信号调节 DG-CA3 电路的元可塑性。

此外,大脑如何表征概念存在争议,CH-HNN 的成功表明情景并非由离散记忆痕迹编码,而是通过情景相关信息引导处理。尽管模型简化了循环回路,但其他研究强调 EC 在情景相关表征中的作用,且海马前后部功能不同,这些发现进一步阐释了终身学习的神经机制。

当前持续学习算法(包括 CH-HNN)虽能利用先验知识取得高性能,但与无专门先验学习机制的模型比较存在不平衡。未来研究可考虑将少样本学习与持续学习相结合,提高在线持续学习在动态环境中的适应性和效率。同时,CH-HNN 在任务相关性有限的场景中可能面临挑战,因其依赖增量情景间的相关性。

综上所述,该研究简化了皮质 - 海马循环电路的模拟,提升了持续学习在现实应用中的性能和适应性,强调了将神经科学见解融入人工智能系统的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号