综述:神经拟态深度学习中的预测编码综述
【字体:
大
中
小
】
时间:2025年10月11日
来源:Neural Networks 6.3
编辑推荐:
本综述系统梳理了预测编码(PC)理论在机器学习领域的创新应用,重点探讨了其作为误差反向传播(BP)的生物学可行替代方案的核心优势。文章详细阐述了PC的变分自由能最小化框架、局部计算特性以及分层高斯生成模型的数学基础,并展示了其在监督学习、自然语言处理(NLP)、计算机视觉、时序建模、持续学习和控制任务中的广泛应用。作者强调PC在实现完全并行计算、处理任意拓扑网络以及提升模型鲁棒性和校准能力方面的潜力,同时指出了当前面临的可扩展性挑战和迭代推理的计算瓶颈,为未来脑启发计算架构的发展指明了方向。
机器学习领域正在快速发展,尤其是在生成式人工智能(AI)、游戏博弈和文本生成等方面取得了显著突破。这些成就主要依赖于通过误差反向传播(BP)算法训练的深度神经网络。然而,BP一直被认为缺乏生物学合理性,这促使研究人员从神经科学中寻找灵感,开发新的学习算法。预测编码(PC)便是其中一种具有前景的理论,它能够模拟大脑不同区域的信息处理,应用于控制和机器人技术,并拥有变分推理的数学基础以及异步计算能力。
生成建模通过将观测数据分解为潜在原因和可观测效应,为理解复杂数据提供了原则性的统计框架。生成模型定义了观测数据o和潜在变量x的联合概率分布,即p(o, x) = p(o|x)p(x)。这种分解将生成过程(潜在原因通过似然p(o|x)产生观测数据)与关于这些原因结构的先验信念(编码在p(x)中)分离开来。
生成建模的力量在于它能够解决两个基本计算问题:推理和学习。推理是在给定观测o的情况下,推断最可能的潜在原因,即计算后验分布p(x|o);学习则是根据数据集调整模型参数以更好地捕捉底层数据分布,通常涉及最大化模型证据log p(o)。然而,这两个过程都面临着显著的计算挑战,因为计算后验需要评估通常难以处理的边际似然p(o),而学习则需要在高维参数空间中进行优化。
变分自由能。变分自由能量提供了一个易于处理的目标函数,它平衡了两个关键因素:鼓励拟合训练数据的准确度和惩罚推断潜在变量复杂性的正则项。这符合奥卡姆剃刀原则,促使模型趋向于能够准确拟合特定数据集的最小复杂度模型。给定观测o和由θ参数化的近似后验分布qθ(x),证据下界(ELBO)或负变分自由能定义为:L(θ, o) = Eqθ(x)[log p(o|x)] - DKL[qθ(x) ∥ p(x)]。该目标函数是log边际似然的下界,其中准确度项鼓励模型在推断的潜在变量下为观测数据分配高似然,复杂度项则惩罚近似后验与先验的偏差,防止过拟合并确保泛化能力。
近似后验。变分自编码器(VAE)使用摊销推理来计算近似后验,即qθ(x)是一个经过专门训练的神经网络编码器的前向传播输出。相比之下,预测编码(PC)等替代方法执行迭代优化来近似后验,在整个推理和学习过程中保持相同的生成模型。
在PC框架中,给定观测o,目标是通过迭代优化而非摊销推理来近似后验分布p(x|o)。PC最初是作为一种时间序列数据的压缩算法开发的,后来被Rao和Ballard用作一种学习算法,模拟视觉皮层中的分层处理。PC与变分推理的联系后来被建立起来,将其与分层高斯生成模型连接起来。
PC文献历史上专注于一类特定的模型,这些模型做出两个关键简化假设:首先,通常假设所有概率分布都是多元高斯的;其次,通常采用分层结构,其中潜在变量遵循一阶马尔可夫假设——每一层仅依赖于其紧邻的上一层。这些假设虽然具有限制性,但提供了显著的计算优势:高斯分布在线性变换下是自共轭的,允许闭式更新,而马尔可夫结构允许相邻层之间的局部计算。
PC的核心对象是分层生成模型,其生活在连续状态空间中,且概率分布本质上是高斯的。然而,定义PC的还有用于反转生成模型的过程,即通过均值场近似和拉普拉斯近似来估计后验。均值场近似允许变分后验分解为条件独立的q(xl),而拉普拉斯近似则假设近似后验分布是高斯形式的。在这一点上,模型可以通过梯度下降或定点迭代来最小化所产生的变分自由能进行反转。
由于变分自由能具有二次形式,其梯度对应于Rao和Ballard原始计算模型中定义的线性加权预测误差。这引出了PC的定义:一个算法A是预测编码算法,当且仅当它通过最小化变分自由能来最大化模型证据log p(o),通过均值场近似对分层结构的节点后验分布进行分解,并且每个后验分布在拉普拉斯近似下(即随机效应是高斯的)被近似。
需要注意的是,这个定义并没有明确说明预测误差或局部性等特性,这些通常是用来描述PC的。这是因为它们不是PC的基础,而是对上述生成模型承诺的结果:均值场近似强制执行独立性,从而导致更新规则中的局部性;拉普拉斯近似将变分自由能简化为二次函数,意味着其梯度是线性预测误差。
PC声称存在两种定义世界内部(即生成)模型的神经元家族:第一种产生传递给较低层的预测,第二种编码传递给较高层的预测误差。最近的工作将这种基本分离应用于单个神经元内的区室,其中误差通过树突连接反向传播。
在机器学习PC论文的标准表述中,一个人工神经元被描述为一个具有三个量的计算单元:其值(值节点)、其预测及其误差(误差节点),定义为前两个量的差值。值节点 x?i,t编码某些潜在状态的最可能值。预测 u?i,t是层次结构中更高层值节点的函数。预测误差e?i,t则由其值节点和预测节点之间的差异给出,即e?i,t = x?i,t - u?i,t。这种存在于每个网络神经元中的局部错误定义,凸显了PC与使用反向传播训练的模型(例如多层感知器)之间的一个关键区别,因为它使得仅通过局部计算进行学习成为可能。
这三个量以及一组突触权重矩阵(W0, ..., WL)共同定义了一个生成模型,其中推理和学习都是作为最小化单个(全局)能量函数的手段而执行的,该能量函数正式定义为每个神经元的平方预测误差之和:Et = 1/2 ∑i,? (e?i,t)2。该能量函数正是前面部分定义的变分自由能。
给定一个观测o,PC的信用分配和随之而来的模型突触参数更新过程如下:首先,最低层的神经元被设置为等于感官观测,即x0 = o。接下来,无约束的神经活动被更新直到收敛步骤T(或固定次数的迭代),以通过梯度下降最小化能量。然后,值节点被冻结,并执行单个权重更新(通过梯度下降)以进一步最小化相同的能量函数。这两个阶段的交替,即值节点更新和权重更新步骤,定义了用于训练PC网络的学习算法。
相似之处。最近的工作表明,在特定条件下,PC可以近似反向传播的权重更新。这些条件在实践中是限制性的,因为它们仅当网络上的总预测误差无限小或在整个推理过程中预测保持恒定(即对于每个时间步t,u?i,t = u?i,0)时才成立。然而,实证研究表明,只要输出误差较小,该近似就成立。
差异。PC在生物有机体面临的问题上表现优于标准模型(例如用反向传播训练的深度神经网络),例如持续学习、在线学习和从小数据量中学习。这是由于推理阶段允许误差以避免称为权重干扰现象的方式在网络中分布。第二个差异是关于稳定性和收敛性:在反向传播中,每个参数更新都是基于当前网络状态独立计算的,没有考虑其他参数将如何同时变化。PC模型则不同,因为已经表明用于监督学习的PC模型自然地实现了隐式梯度下降,这是一种更稳定的优化方法,其中每个参数更新都考虑了网络中所有其他参数将同时发生的变化。因此,PC模型往往比标准模型更鲁棒且校准更好。
局限性。与基于反向传播的模型不同,PCN面临可扩展性瓶颈,限制了其在大型深度学习任务上的有效性。例如,在分类任务中,这些模型在使用浅层架构(例如具有5-7层的卷积模型)测试标准基准时实现了有竞争力的性能。然而,随着网络深度的增加,性能显著下降。第二个限制涉及推理阶段的计算复杂性。理论上,最佳性能需要等待收敛后才更新权重,这引入了大量的计算开销。
尽管是为了模拟不同大脑区域的信息处理而开发的,但上述公式仍然缺乏生物学合理性,主要的合理性在于对称权重连接。神经生成编码(NGC)是PC的一种推广,适用于任意布线模式。与PC一样,NGC采用预测然后校正的学习方式,但结合了额外的神经生物学机制,包括侧抑制、学习到的精度加权和膜电位泄漏。NGC的关键创新是将前向生成路径(矩阵W?)与反馈路径(矩阵E?)解耦。这允许灵活的连接模式,包括跳跃连接,而不要求反馈结构反向镜像生成模型。
每个NGC电路在T个时间步上处理输入,其中g?代表精度加权函数,β控制更新速率,γ代表膜泄漏,fD是树突处理函数,Δt是时间步长,Φ(x?t)捕捉侧向相互作用。预测的计算和神经活动的更新根据指定方程进行。误差信号被计算为精度加权的实际活动与预测活动之间的差异,并由互相关矩阵Σ?调制。在稳定T步之后,生成和反馈突触都通过具有Hebbian规则的多因子更新。
尽管存在先前强调的规模限制,PC已在大量机器学习任务中展现出显著的 versatility。虽然早期的实现主要专注于简单的分类任务,但最近的进展表明,PC可以有效地解决日益复杂的问题。
监督学习。PC在监督学习中的首次应用涉及训练一个小型PC网络在MNIST数据集上执行图像分类,实现了与相同复杂度(深度和宽度)的多层感知器(MLP)相当的测试和训练误差。此后,在卷积网络上也取得了类似的结果。
自然语言处理。PC中的高斯假设在需要模拟不同分布(例如分类分布或混合模型)的场景中可能有限制性。其中一个场景是在Transformer模型中:注意力机制通过softmax激活编码了一个分类分布。为此,可以将特定层的能量定义推广为两个概率分布之间的KL散度,其中预测和活动作为充分统计量。这种推广允许基于预测编码的Transformer在具有相同模型复杂度的情况下,表现几乎与标准Transformer一样好。
计算机视觉。在处理图像时,PC已显示出前景,特别是当考虑利用卷积算子来处理视觉中的问题(如物体识别和辨别)的泛化时。早期的NGC工作使用了简化假设,如灰度图像和低场景复杂性。后来通过卷积神经生成编码(Conv-NGC)推广到自然图像,该编码集成了标准的卷积/反卷积操作。
时序数据。PC在时序序列建模方面取得了离散的成功。早期的工作开发了用于自然视频数据的分层神经生成建模。最早的NGC formulations之一通过时序神经编码网络(TNCN)处理时变数据,后来推广到并行时序神经编码网络(P-TNCN)。
持续学习。上述P-TNCN的一个有前景的方面是它能够进行持续的序列学习,因为其在先前见过的序列建模任务上的生成能力没有像循环网络中那样严重退化。额外的努力通过检查在线累积学习的挑战性问题来探索加强NGC的记忆保留能力,其中数据集(或任务)以流的形式呈现给系统,并且没有指示任务何时切换。
主动推理与控制。在计算神经科学中,主动推理的早期 formulations 基于为PC配备反射以模拟各种行为。主动NGC(ANGC)和主动PC(ActPC)通过预测处理来表述主动推理,与反向传播训练的网络形成对比。
机器学习中一个常见的问题是:一个特定算法在什么程度上可以被认为是生物学上合理的?这是因为没有计算机模拟能够完全复制大脑在每个方面的复杂工作,因此总会有某些细微差别使得模拟在某种程度上显得不合理。此外,不同的研究议程考虑不同的特性来区分生物学上合理和不合理的模型。
关于预测编码的神经科学辩论。尽管PC是变分贝叶斯方法的一个子集,但与更广泛的贝叶斯大脑假说相比,PC的直接实验支持要少得多。神经成像确实支持PC的某些元素,特别是通过失匹配负波(MMN)的框架。然而,MMN也可以通过神经适应来解释,而无需调用分层贝叶斯机制。有证据表明,PC可能更好地被视为一种认知的、更高层次的解释,而不是一种基于较低层次感觉的解释。尽管PC可以解释各种神经生理学现象,但明确检验PC固有假设的研究较少。这些核心假设包括期望缩放的错误信号神经反应和代表感觉预测的自上而下的信号。PC被批评为难以证伪。
将PC从算法规范转化为生物物理实例化通常是不清晰的,这造成了关于哪些实现正在特定研究中被测试的进一步模糊性。一些研究表明,PC更可能发生在特定的大脑区域,这取决于正在处理的感觉模态。更重要的是,在网络层面上似乎没有证据表明预测和错误之间存在区别。尽管如此,尽管存在围绕PC及其经验基础的不确定争论,神经生理学方法的进步提供了希望。
错误神经元。我们对PC如何在神经元层面实现的理解在过去十年中确实发生了变化。最初的假设是大脑将编码两种神经元/结构家族:一种负责传播预测,另一种负责传播错误。截至目前,我们没有明确的经验证据表明存在单个错误神经元,尽管有大量证据表明神经元群体存在层状特异性分离,这些群体可能分别传递预测和错误。最近的工作表明,错误信号可能由树突中的局部电压动力学计算。尽管现有技术难以在单神经元水平上实证证明PC,但我们在神经元群体或大脑区域水平上有更强的PC证据。
精度工程。PC实现中的另一个挑战是精度加权的管理和更新。通常,协方差矩阵Σ?或其逆矩阵精度矩阵(Σ?)-1必须使用矩阵求逆进行调整或计算。然而,计算神经科学中的PC实现已经以生物学上合理的方式使用精度或协方差分量分析的标准解决方案解决了这个问题。这是PC的一个重要方面,因为精度加权被认为在神经科学设置中实现了注意力。
突触约束。在标准的PC网络中,对神经计算至关重要的突触值在更新后通常不受严格限制。这可能导致值变得非常高或非常低,从而降低了模型的整体稳定性。NGC通过引入约束来确保突触矩阵任何行或列的欧几里得范数不超过一,这有助于稳定性,这是一种根源于早期经典稀疏编码线性生成模型的实践。PC模型的第二个不合理之处是其突触符号的频繁变化(或“符号翻转”),在训练过程中可以从负变为正(反之亦然),这是模拟真实皮质功能的一个关键方面。
软件和硬件在实现计算智能模型的创新和实际实施方面发挥着至关重要的作用。虽然PyTorch和TensorFlow等框架对深度学习起到了重要作用,但由于稀疏的软件支持和不断发展的硬件机会,PC研究面临着独特的挑战。
在软件方面,可用的框架相对稀疏,大多数研究导致分散的、针对特定论文的代码,这阻碍了更广泛的采用和可重复性。然而,有几个库旨在使PC研究民主化:ngc-learn是NGC的官方库,基于神经元电缆理论,支持任意PC模型和神经形态系统构建以及一般神经电路模拟。PCX是一个面向深度学习的库,基于JAX/Equinox构建,能够即插即用地进行具有PC更新的深度学习,并在框架中展示了最先进的结果。其他库包括用于分层PC模型的pypc,用于将深度架构转换为类PC系统的predify,用于随机和贝叶斯PC formulations的pyhgf,以及最近提出的用于完全并行深度学习架构的jPC。
硬件限制历来塑造了研究方向。虽然GPU和TPU主导了当前的训练,但忆阻器、自旋电子学和光学等新兴技术可能会彻底改变该领域。PC作为一种基于能量的模型,可通过平衡传播进行训练,特别适合替代硬件。其具有逐层并行计算的迭代推理、Hebbian适应和局部能量优化实现了显著的并行化,减少了反向传播中固有的通信瓶颈。这种与神经形态硬件的一致性为节能学习创造了机会,动态忆阻器为脑启发系统提供了有希望的潜力。
除了传统硬件,PC可能通过生物物理介质中的自适应计算实现“培养皿中的智能”技术。鉴于PC与皮质计算的相关性,它本质上与类器官智能兼容。早期的脉冲级实现显示了动态预测处理的前景。类器官的生长和衰变可以促进模型选择,可能通过神经结构的自然进化改善泛化。
脉冲预测编码。一个关键挑战涉及将PC推广到脉冲级处理。生物神经元通过稀疏的动作电位进行通信,创建信息丰富的脉冲序列,这启发了通过精确时间编码信息的脉冲神经网络。这使得节能的神经形态硬件成为可能,与基于GPU的能量密集型网络不同。然而,大多数PC formulations未能解释稀疏、离散的通信,反映了PC描述的是整体而非单个神经元动力学这一本质。脉冲神经编码框架尝试使用脉冲诱导的突触调整在脉冲网络中实现PC。与需要手工制作层的标准脉冲时间依赖可塑性(STDP)不同,该框架使用灵活的突触电导模型、膜电位和迹线机制。
正如我们在第3和第4节中讨论的,PC模型的性能可能远低于使用反向传播训练的现代深度神经网络。PC在机器学习中的未来很大程度上取决于我们解决和填补这一差距的能力。具体来说,未来工作中与PC相关的主要方向应该是理解这种性能不匹配的根本原因,并利用这些获得的见解来开发和设计新颖的PC模式、数学框架和计算模型,使其在大型规模设置中工作良好,而当前的深度学习模型在这些设置中表现出色。
效率。PC的第一个缺点是它的效率。这是其底层迭代推理过程的结果,该过程通常需要运行直到收敛。在实践中,通常让PC模型运行固定次数的迭代T,但这个数字必须很大才能达到高性能,并且更深的网络需要更多的迭代才能表现良好。为此,推导出执行变分自由能最小化的不同优化技术和方法将是有用的。
优化技巧和启发式方法。未来的研究还需要关注优化技术的研究,这些技术已被证明对变分推理有用且 invaluable,例如那些促进将精度加权参数纳入图中的技术。尽管在过去几年中取得了有趣的进展,并且尽管精度在神经科学中使用的模拟中具有首要重要性,但这些技术仅在小规模和中等规模设置中进行了测试。更广泛地说,深度学习领域从过去十年中开发的简单优化技巧中获得了巨大的好处。鉴于深度学习的历史,人们可能会问:PC的dropout、batch norm和Adam优化器等价物是什么?如果目标是扩展PC的适用性,解决这样的问题将至关重要,并且有望成为未来更多研究工作更突出的关注主题。
随机生成模型与采样。一个不同但重要的方向是与生成模型相关的方向。我们一直在讨论将联合分布的统计模型放回生成AI研究议程的重要性;然而,大多数超越小规模任务的研究工作都专注于监督学习。为此,我们需要开发能够从计算良好的后验分布中采样数据点的模型,使用基于朗之万动力学等模拟方法。这将有利于贝叶斯推理的不同子领域,例如分布外(OOD)检测、不确定性最小化和数据重建。事实上,PC特别适合OOD检测,这要归功于一个随时可供模型使用的惊奇度量,即相对于其变分自由能。
PC的另一个概率生成建模研究方向是将模型(即突触)参数的不确定性纳入边际似然的变分界中。也就是说,可以为突触参数配备概率分布(而不是使用点估计)。这一举措将使PC更接近其贝叶斯根源:当前PC的机器学习实现不将模型参数视为随机变量,因此可以被视为一种期望最大化(EM)过程,其中M步忽略了对参数的不确定性。将参数视为随机变量的好处是,可以评估结构学习所需的模型证据。
构建控制系统。PC带来了学习强大生成模型的承诺,该模型随着时间推移收集更多感官样本而不断迭代细化。这导致一些早期工作考虑将这样的过程作为世界模型的基础,驱动模块化的、受大脑启发的认知模型,能够在玩视频游戏和机器人控制任务的背景下结合感知和行动。这对机器学习之外具有重要影响,特别是对于认知科学和认知神经科学领域,其中一条关键途径是构建心智的计算理论并检查其与受控
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号