《Advanced Intelligent Systems》:Exploiting Ferroelectric and Spintronic Dynamics for Neural Network Computation
编辑推荐:
模拟内存计算(AIMC)成为一种有前景的解决方案,以克服冯·诺依曼架构在人工智能工作负载中的能量和延迟瓶颈。计算直接在执行于非易失性存储器阵列内部。铁电(ferroelectric)和自旋(spintronic)器件,依赖于极化和磁化的控制,为AIMC提供了本
模拟内存计算(AIMC)成为一种有前景的解决方案,以克服冯·诺依曼架构在人工智能工作负载中的能量和延迟瓶颈。计算直接在执行于非易失性存储器阵列内部。铁电(ferroelectric)和自旋(spintronic)器件,依赖于极化和磁化的控制,为AIMC提供了本质上的高能效和低延迟构建模块。这篇综述强调了这两种物理硬件家族如何共享一个统一的计算框架:两者都利用序参量的滞后动力学(hysteretic dynamics)来提供非易失性、多状态存储和非线性开关。迄今为止,大多数AIMC实现是为成熟的忆阻技术(如RRAM)设计的。由于这些器件是电流驱动的,而铁电类器件是场驱动的,其相关的实现策略无法直接移植,这促使需要一个新的协同设计空间,本综述旨在建立该空间。研究人员评述了用于机器学习的静态、阵列基向量-矩阵乘法,以及动态计算范式,如储层计算(reservoir computing)和脉冲神经网络(spiking neural networks)。尽管器件约束(如量化值精度、非对称权重更新、低频噪声和器件非理想性)通常被视为限制,但研究人员展示了它们如何可以被利用于训练。学习方法包括硬件感知(hardware-aware)和物理感知(physics-aware)训练,为迈向整体、受大脑启发的神经形态计算铺平了道路。
1 引言
近年来,人工智能(AI)已成为所有领域前所未有的发展催化剂,应用范围从辅助外科医生、预测疾病、发现新药到有效管理农业资源和利用机器人减轻工人繁重劳动。这一繁荣归因于收集大量数据的能力、机器学习模型的改进以及加速其训练和推理的硬件专业化。然而,基于图形处理单元(GPU)的AI加速器在其精细化方面日益受限。首先,它们由晶体管构成,其单元尺寸正接近基本极限,无法在芯片上堆叠更多晶体管。其次,它们嵌入在冯·诺依曼架构(分离存储器与处理单元)中,导致高延迟、低吞吐量和高能耗,这可以通过每瓦每秒万亿次操作数(TOPS/W)来量化。总之,当前的实现为深度神经网络(DNN)的理论能力设置了天花板。对于大型语言模型(LLM)工作负载,通信可能占执行时间的50%,使GPU计算处于空闲状态。计算机科学家只能优化内核。这推动重新思考神经网络及其运行硬件,从模拟内存计算(AIMC)开始,它在存储器内部执行计算,并允许直接在硬件中读取每次计算的输出,从而远离冯·诺依曼结构,转向仅针对神经网络优化的机器。AIMC已主要通过忆阻器实现,忆阻器是一种通过其电阻显示其过去动力学(即滞后)记忆的电气元件。更节能的商业化忆阻器芯片可达19 TOPS/W,而NVIDIA A100约为2 TOPS/W。追求能效不仅是为了性能。到2030年,数据中心行业可能占全球电力供应的21%,并将消耗灾难性的自然资源,尤其是水。此外,如今大多数模型依赖云计算,这引发隐私和安全问题,而边缘计算(在不访问云的情况下执行推理)可以解决这些问题。开发具有更高计算能力的快速紧凑模拟芯片可为未来的边缘和节俭AI提供动力。
自旋和铁电器件是高能效、低延迟AIMC的优秀候选者。这两个家族在行为上是类似的,因为其组成材料的序参量——自旋的磁化强度M和铁电的极化强度P——在施加外部刺激(分别为磁场B和电场E)时显示滞后回线。除了这种行为类比外,这些材料属于同一更广泛的物理家族:铁电材料。尽管利用其各自序参量之间的内在交叉耦合(如多铁材料中的磁电效应)的器件仍处于技术发展的早期阶段,并面临重大集成挑战,但对铁电系统的整体研究仍是超越CMOS电子学的基础范式。至关重要的是,虽然它们不在单一、僵化的计算架构下运行,但它们的物理属性映射到计算原语的方式是相似的。具体而言,其序参量的滞后动力学满足神经形态硬件的两个核心要求:用于存储的多状态非易失性(充当突触权重)和用于计算的非线性开关特性(充当神经元激活函数或动态节点)。通过同时评述它们,本文建立了一个共享的概念基础:利用滞后作为计算资源。研究人员强调了这些相似的原语如何实现广泛的AI工作负载,涵盖用于深度学习架构的静态、阵列基AIMC,以及动态计算范式,如储层计算(RC)和脉冲神经网络(SNN)。在这篇综述中,研究人员将涵盖从材料属性到用于训练的学习方法等此类器件的挑战和前景。
2 模拟内存计算
一个DNN由许多神经元层组成,它们通过称为参数的权重和偏置相互连接。在每一层,向量化输入乘以权重矩阵,由偏置调整,并通过逐元素应用的非线性激活函数进行变换。因此,向量-矩阵乘法(VMM)是神经网络中使用最频繁的基本操作。然而,在冯·诺依曼架构中,VMM计算密集:对于一个大小为N的层,内存访问次数随N2缩放,导致2N2次浮点运算。实际上,乘累加运算(MAC)——VMM中的基本操作——需要将权重、激活值和部分和从存储器传输到处理器。因此,为了复现当前模型,内存计算架构必须在计算存储器的边界内执行VMM、添加偏置并计算非线性激活函数。为此目的最常见的架构是交叉阵列。概念上,在阵列的每个节点上,存在一个器件,通过可配置的阻抗持有权重矩阵的一个权重。N维输入向量由N个电压脉冲表示,它们沿每条字线传播,并通过广义欧姆定律乘以每个节点器件的阻抗。产生的电荷被发送到位线,并通过电荷守恒原理与其他所有电荷相加。组成MAC的这两个操作使得VMM得以计算。如果交叉阵列的最后一行持有偏置值且输入向量的最后一个元素被归一化,那么添加偏置也可以通过VMM完成。输出电流(或输出电荷)被非线性变换——模仿神经网络的激活函数——成输出电压脉冲,该脉冲随后可以进入新的交叉架构,即网络的另一层。
为了使该架构高效地复现DNN层,每个非易失性存储器(NVM)器件需要展示具有所需保持特性的多个电导通道。例如,在磁性隧道结(MTJ)中,可以通过施加不同的磁化配置来实现多个通道,从而导致不同的反常霍尔电阻状态。在Pb(Zr, Ti)O?基等铁电隧穿结(FTJ)中,通过部分极化切换展示了超过30个电导状态。然而,32个不同的电导状态相当于5比特,远低于当前大型AI模型所需的16位浮点精度(即65536个不同状态)。这就是为什么AIMC需要量化或新的学习范式,以利用可用的可区分状态。此外,在训练阶段,器件需要具有易于可重构的权重。历史上从神经科学界借用的术语,将权重与突触相关联,激活函数与神经元相关联,权重的增加称为长时程增强(LTP),减少称为长时程抑制(LTD)。在完全线性和相对于其最大值对称的曲线情况下,向下调整与向上调整在能量上等价,这有利于训练。在物理器件中,电导更新通常是非对称和非线性的。然而,对称性是实现高学习精度的最重要因素,LTP和LTD之间超过5%的非对称性会使模型在纯模拟实现中无法收敛。此外,即使对于对称器件,非线性度的标准差超过1会显著降低精度。除了要求大存储窗口和线性对称曲线的材料工程外,AIMC领域还要求算法协同设计,考虑有限的比特分辨率和非线性非对称权重更新。
此外,这种架构会导致通过半选和未选单元的潜行路径电流。电容阵列已显示出无需任何静态功耗即可实现计算的能力,由于没有电流流过阵列,它本质上是抗潜路径的。这些阵列利用某些铁电电容器(FeCap)中的忆电容,其中小信号电容取决于极化方向。在这种情况下,阵列中的忆阻器被忆电容器取代,从而用电容取代电导,用欧姆定律被电荷、电压和电容之间的本构关系取代。为了检索输出电压,反馈电阻被反馈电容器取代。负权重可以映射到忆阻权重的差分对(图2c),也可以映射到忆电容权重的差分对(图2d)。铁电电容仍然缺乏强开关比,但作为有前景的候选者,它们还提供了系统紧凑性,相比1T-1C或1T-1R忆阻交叉阵列(6-12F2),它们可小至4F2。这些尺寸特性优于当前用于近内存计算的静态随机存取存储器——作为CPU缓存中的易失性存储器——其单元面积超过100F2。无论如何,忆阻或忆电容器件的性能要求由预期应用决定。对于边缘推理,预训练权重保持静止,主要关注高集成密度和长期保持,因此铁电电容达到4F2使其成为理想候选者。相反,通过原位权重更新进行片上训练对写入耐久性提出了更严格的要求,需要几乎无限的耐久性(>101?次循环)。当前的AIMC实现表明,铁电和自旋器件的耐久性有限,从10?到1012次读/写循环。未来,材料层面的工程可以将这一数字提高到101?。然而,耐久性仍然是阻碍AIMC技术成熟的主要瓶颈之一。此外,为了在大型VMM阵列中维持高TOPS/W,器件必须实现亚纳秒开关速度和低于1 fJ/bit的能耗。实验器件已展示亚纳秒编程速度和亚fJ/bit功耗,自旋轨道转矩(SOT)-MRAM在理想条件下仅需210 ps和0.5 pJ/bit,使其成为大型VMM加速的领先候选者。然而,每个周期也需要与下一个周期显示一致性。周期到周期(C2C)和器件到器件(D2D)的变化常常阻碍训练阶段,并最终降低计算精度。要求取决于算法和实现:例如,在全模拟交叉阵列上的随机梯度下降中,这些变化必须保持在2%以下以确保模型收敛。对于混合精度实现,C2C的约束放宽,对于SNN,两者都放宽。此外,AIMC实现中的一个关键挑战是低频噪声的存在,特别是1/f噪声和随机电报噪声(RTN)。在铁电器件中,随着器件面积减小,与1/f和RTN相关的随机性趋于增加,而某些电导水平似乎受RTN影响较小。自旋器件同样受磁性和电学1/f噪声和RTN的影响。这些动态波动的影响贯穿整个机器学习流程。在训练期间,噪声在前向和反向传递中引入意外随机性,可能导致不稳定的权重更新错误并阻碍模型收敛。在推理期间,这些低频电导漂移会降低VMM的精度。由于模拟权重随时间随机漂移,相邻可编程状态之间的读取余量变窄,有效限制了可区分状态的数量,从而限制了交叉阵列的可靠比特精度。因此,实现高精度AIMC需要多层次方法。除了器件层面的改进——如缺陷钝化或界面工程——以及在最稳定范围内操作器件外,从根本上减轻这些影响需要稳健的硬件感知训练(HAT)算法。现代范式不将噪声视为需要抑制的纯缺陷,而是将其视为硬件内在的概率特征,甚至可以用于正则化或随机计算。
3 用于机器学习的铁电组件
铁电体被定义为表现出自发电极化的材料,该极化可以通过施加电场反转。使用铁电体实现存储器的想法在第一种铁电材料钛酸钡发现后迅速出现。几种器件已被开发出来,包括达到市场的130纳米技术,但将铁电体集成到CMOS中的复杂性阻碍了其作为非易失性存储器的发展。最近,稳定不同剩余极化状态的能力复兴了该领域,可以构建模拟突触的各种器件。本部分首先介绍铁电隧穿结(FTJ),它在21世纪初被理论提出并制造。然后讨论了更近期的成果,例如铁电场效应晶体管(FeFET)和铁电电容器(FeCap)。它们都具有高速写入/擦除(纳秒级)和低功耗(每比特几飞焦耳)的优势。
3.1 铁电隧穿结
FTJ是一个两端器件,其电阻由结构中嵌入的铁电层的极化状态调制,因此其行为类似忆阻器。常见结构由金属/铁电/金属(MFM)堆叠组成,其中使用不同功函数的金属以在器件两侧产生能带结构不对称性。FTJ的工作原理基于量子隧穿,并受界面限制导电机制控制,如直接隧穿、福勒-诺德海姆隧穿和热电子发射。根据铁电层中极化取向,势垒降低或升高,FTJ分别处于低电阻或高电阻状态。这种通过反转铁电极化引起的电阻变化称为隧穿电致电阻(TER),是需增加以获得大存储窗口的量。最先进的FTJ在室温下显示约10-10?的ON/OFF电流比,与FLASH存储器性能相当。TER强烈依赖于铁电元件的剩余极化值。厚度减小对确保低电阻ON状态和降低驱动电压至关重要,但会与可能的铁电性丧失(由于死层效应)和矫顽场增加相竞争。中间电阻状态通过铁电层的部分切换达到,允许突触权重更新。这种部分切换可以通过改变外加电脉冲的幅度和持续时间实现。第一代FTJ使用传统钙钛矿材料,如BiFeO?、BaTiO?、(Ba, Sr)TiO?或Pb(Zr, Ti)O?。最近,研究集中在基于萤石的材料、聚合物和二维范德华材料。钙钛矿氧化物FTJ的主要问题是在CMOS工艺中制造困难,而萤石基FTJ提供本征CMOS兼容性、更好的集成性和厚度缩放,但其高矫顽场(~1 MV/cm)导致可靠性问题,其中泄漏电流随循环增加。为进一步提高TER并消除阵列中FTJ集成时对选择器的需求,最近提出了自整流FTJ(SR-FTJ),其堆叠类似于常规FTJ,但在一个电极和铁电层之间增加了一层,打破空间反转对称性并诱导强内建电场。
3.2 铁电场效应晶体管
FeFET是一个三端器件,在栅电极和晶体管沟道之间集成铁电层。当在栅极施加电压脉冲时,铁电层中的极化方向对齐为向上或向下,调制沟道电导,从而改变器件的阈值电压。由于极化状态是非易失性的,FeFET可作为模拟存储元件。对称地调整沟道电导的能力和低编程电压使FeFET非常适合于模拟突触可塑性。施加正栅压降低阈值电压(对应于增强),施加负栅压增加阈值电压(对应于抑制)。FeFET的三端结构具有比FTJ更大的占用面积,但允许对栅极、源极和漏极进行独立控制,从而更精确地调制沟道电导。FeFET可消除潜行路径,并通常提供更一致的性能,因为铁电层更厚。此外,FeFET可提供对称的电导调整,有利于模拟生物突触中的渐近权重更新。首次FeFET神经形态计算演示使用传统钙钛矿,如Pb(Zr, Ti)O?,随后使用HfZrO(HZO),因其CMOS兼容性和可扩展性。基于HZO和金属氧化物沟道的多级铁电薄膜晶体管可用与CMOS后段集成兼容的工艺制造。最近,基于AlScN的FeFET已被研究,其显示大存储窗口,但需要高工作电压。
3.3 铁电电容
铁电材料提供对神经形态计算有用的另一种属性:其电容随电场变化(忆电容器)。与忆阻器显示电流-电压滞后类似,忆电容器在其电荷-电压曲线中显示滞后。与忆阻器的主要区别是忆电容器不通过焦耳热耗散能量。当前忆电容器开发策略依赖于电荷屏蔽效应和电容-电压曲线滞后。基于屏蔽效应的典型结构是金属/铁电/绝缘体/半导体(MFIS),类似于FeFET,或金属/铁电/金属/绝缘体/半导体(MFMIS)。FeCap是两端器件,其电子等效电路由两个串联电容器组成。根据铁电层极化取向,半导体层中的耗尽深度被修改,从而改变等效电容。通过使用不同幅度/持续时间的脉冲,部分切换铁电层可稳定中间电容状态。对于铁电层,基于铪的材料特别具有吸引力,因为其CMOS兼容性。另一种策略是利用电容-电压(C-V)曲线的滞后行为。对于顶底电极相同的金属/绝缘体/金属(MIM)FeCap,C-V循环几乎对称,导致零电压时电容值几乎相同,存储窗口小。通过使用两种不同功函数的金属可移位C-V循环,产生不同零电压电容值。基于C-V循环移位的忆电容器电容比低于静电屏蔽,但结构更简单且可靠性高。
4 用于机器学习的自旋组件
对铁磁材料的兴趣在20世纪80年代末激增,当时巨磁阻效应被发现,使新一代非易失性存储器得以诞生。自那时起,磁阻随机存取存储器(MRAM)已被工业界采用,并继续驱动积极研究努力,这主要归功于操纵铁磁纳米结构中磁化所需的低电流。
4.1 数学表述
在绝大多数自旋器件中,磁化动力学由朗道-利夫希茨-吉尔伯特(LLG)方程控制,该方程包含吉伯阻尼项和电流诱导的转矩项(如自旋转移转矩(STT)和自旋轨道转矩(SOT)自旋轨道转矩来源于自旋霍尔效应。
4.2 磁性隧道结
MTJ是自旋器件的基础构建块。它由一个自由层(其磁化由LLG控制)、一个更薄的非磁性绝缘势垒和一个参考层组成。MTJ是一种基于电子隧穿的电阻器件,可取两种经典状态:平行(P)状态和反平行(AP)状态,其相对电阻差异由隧穿磁阻(TMR)测量。TMR值可超过90%。MTJ的动态范围通常低于其他NVM技术。然而,最近的实验通过在Pt/Co/SiO异质结构器件中利用反常霍尔电阻状态,展示了三十种稳定混合状态。完全在P和AP状态之间切换可通过施加跨越结的电压(STT)或通过将MTJ变为三端器件(在自由层上添加非磁性重金属,利用SOT)实现。SOT-MTJ可提供更高效的切换。此外,MTJ可显示随机动力学(s-MTJ)或用作自旋转移转矩纳米振荡器(STO)。超越均匀宏自旋切换,纹理动力学——特别是磁畴壁(DW)的成核和传播——提供了一条在自旋电子学中实现多级电阻状态的稳健途径。在磁畴壁MTJ(DW-MTJ)中,自由层包含一个磁畴壁,其位置可通过STT或SOT确定性移动。除STT和SOT外,电压控制磁各向异性(VCMA)、磁离子切换和电压控制交换耦合也是研究的节能机制。
4.3 磁随机存取存储器
MRAM指置于交叉架构中的MTJ。SOT-MRAM在读/写能量和延迟方面优于STT-MRAM,但占用面积稍大。为了满足多级电导要求,研究人员开发了多柱MTJ架构,其中独立MTJ纳米柱平行地制作在单个共享重金属SOT轨道上,通过选择性调制单个柱的开关阈值,可独立寻址和编程,提供离散、确定、高度线性的多级电阻状态,使模拟DNN推理接近数字浮点基线精度。
4.4 人工自旋冰
人工自旋冰(ASI)是由排列在晶格上的单畴偶极耦合纳米磁体组成的超材料。通过利用纳米磁体之间的偶极和交换耦合,它们可能被设计为阻挫系统,产生复杂集体现象。方形晶格可转化为人工自旋涡冰(ASVI),其中自旋在涡旋中循环。在环形纳米磁体阵列(NRA)中通过面内旋转磁场可显示涌现集体行为。另一种更简单的制造工艺是在薄膜上使用聚焦离子束钻孔,创建“反点”阵列,其显示类似于NRA的涌现复杂模式。Kagome晶格等可用于计算,特别是物理储层计算。混合不同晶格几何形状阵列的输出可增强计算性能。
4.5 多铁器件
铁电和铁磁材料都属于更大的铁电材料家族。第三种铁电特性是铁弹性。结合至少两种铁电特性的材料称为多铁材料。当每种铁电有序可由其共轭场切换时,可能增加电导水平和读取通道数量,允许人工神经元之间更广泛的信息流。
5 学习方法
本综述关注神经网络在模拟芯片上运行所需的基本操作,但训练参数是关键挑战。本节展示学习方法如何适应模拟场景。
5.1 数学表述
典型前馈神经网络由参数化权重和偏置组成,通过梯度下降最小化损失函数迭代更新参数。反向传播通过链式法则高效计算导数。
5.2 基于梯度下降的范式
一种方法是将预训练模型直接移植到芯片进行推理,但性能因数字与模拟芯片差异而下降。另一种方法依赖数字孪生辅助训练,包括在预表征器件数字模型中模拟训练,然后施加最优模拟参数。
5.2.1 在硅训练
数字孪生需考虑权重变异性模拟,包括电导漂移、D2D和C2C变化、架构级噪声和延迟,即硬件感知训练(HAT)。此外,铁电和自旋器件依赖量化权重,需量化感知训练(QAT)。已开发多个模拟器如IBM AI硬件工具包、NeuroSim等。例如,在5比特精度FeFET器件上训练的2层感知器在MNIST上达90%准确率。有研究提出使用三元参数训练LLM匹配16位浮点精度,表明仅需3个电导水平的FTJ或MTJ可能实用。
5.2.2 混合训练
物理感知训练(PAT)使物理系统执行前向传递,数字模型计算梯度,减轻数字孪生误差积累。PAT已被实现以利用ASVI和NRA的动力学和随机性。
5.2.3 原位训练
全模拟训练需实现梯度下降算法。非对称权重更新超过5%会导致SGD失败。Tiki-Taka算法通过耦合动力学系统同时最小化目标函数和非对称引入的非意图项。平衡传播(EP)是一种用于能量系统的不需SGD的学习方法,通过比较自由和受扰平衡状态更新权重。
5.3 替代学习范式
5.3.1 浅层神经网络
非DNN可在不需要SGD的情况下有效训练,非深度强化学习架构利用局部学习规则提供效率。
5.3.2 贝叶斯神经网络
贝叶斯神经网络(BNN)利用器件随机性,将网络参数表示为概率分布。铁电和自旋器件自然产生电导分布,适合映射均值和方差。已有硬感知BNN实现,如在磁畴壁MTJ上通过变分推理建模权重分布。
5.3.3 储层计算
储层计算(RC)是一种具有固定不可训练权重的递归神经网络。输入通过固定矩阵映射到高维储层,只有可训练输出层进行线性回归。RC适合动力学数据集,是自旋电子学中最流行的计算方案之一。实验已实现ASVI、STO等RC,在识别任务上接近100%准确率。
5.3.4 脉冲神经网络
脉冲神经网络(SNN)是受大脑启发的计算方式,信息由尖峰携带。SNN特别适合时间信号处理,其动力学仿生突触可塑性。不可微的尖峰性质使数学梯度下降不可行,但通过替代梯度近似可将CNN转换为SNN。此外,局部无监督学习规则——脉冲时间依赖可塑性(STDP)——已在FTJ忆阻器和skyrmion操控中实验实现。
6 硬件与学习范式综合
表1提供了器件类型、物理状态变量、更新机制、主要学习范式和特定瓶颈的概述。选择平台取决于计算应用:FTJ适合需要极端集成密度和高开关比的边缘推理;FeFET适合需要抗潜行路径和分离读/写路径的场景;FeCap在纯电容阵列中适合最小化静态功耗;自旋平台如SOT-MRAM或STO适合连续片上训练或动态处理。
7 结论与展望
随着AI使用呈指数增长,冯·诺依曼架构中存储墙造成的能量和延迟需求推动了AIMC的探索。本综述展示了铁电和自旋器件如何利用序参量的滞后动力学提供神经形态计算所需的多状态非易失性和非线性开关特性。FTJ和FeFET已广泛集成于当前AIMC方案,FeCap作为低能耗紧凑组件正获得关注,而MRAM由工业推动,ASI研究产出更易制造的设计。硬件与软件协同设计至关重要,已涌现HAT、PAT等适应方法及BNN、SNN等全新方法。该领域处于早期阶段,但研究兴趣呈指数增长,有望建立统一的学习理论。