
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向存内深度学习加速器的抗干扰模拟阻变存储器交叉阵列研究
【字体: 大 中 小 】 时间:2025年09月18日 来源:Advanced Science 14.1
编辑推荐:
本文报道了一种基于350纳米硅工艺的导电金属氧化物(CMO)/HfOx阻变存储器(ReRAM),该器件在实现60 ns快速模拟开关的同时,展现出对并行权重更新中干扰脉冲的卓越耐受性(>10万次脉冲)。通过COMSOL多物理场仿真揭示了导电细丝诱导的热电能量局域化机制,并在一晶体管一阻变(1T1R)阵列芯片上实现了无干扰的并行权重映射。硬件感知神经网络仿真进一步验证了该ReRAM在支持全并行权重更新的存内深度学习加速器中的应用潜力。
随着人工智能(AI)算法的快速发展,数字硬件系统在应对训练成本方面已接近极限。神经网络规模呈指数级增长,参数量突破万亿级别,导致最先进模型的训练成本超过1亿美元。阻变存储器(ReRAM)凭借其高可扩展性、低功耗操作和模拟阻变特性,在神经形态计算领域备受关注。嵌入交叉阵列架构的模拟存内计算已成功实现AI推理加速,但训练算法的存内加速仍处于早期研究阶段。本研究致力于解决使用模拟ReRAM阵列进行存内训练加速的关键挑战:全并行权重更新过程中交叉点器件权重值的干扰问题。
深度神经网络训练需要通过计算前向激活和反向传播误差的外积来计算权重梯度。为了实现存内训练加速,此外积权重更新必须在模拟存储器阵列中并行执行。Gokmen等人提出的随机脉冲编码方案实现了恒定时间复杂度的全并行外积更新,其核心是电压脉冲的概率性重合。然而,要实现成功训练,交叉点器件必须忽略非重合的半幅脉冲,仅对重合脉冲产生响应,这就要求器件对施加电压幅值具有强非线性开关特性。
研究团队在350纳米硅技术上集成了1T1R单元,采用CMO/HfOx双层结构与TiN电极。通过能量色散X射线光谱(EDS)分析验证了器件的材料结构。器件在初始形成阶段显示单步突变的电流跳跃,表明通过4 nm HfOx薄膜的击穿形成了刚性导电细丝(CF)。正负电压扫描下的渐变set和reset开关操作证实了CF在定义电阻开关区域中的关键作用。
该ReRAM器件展现出60 ns快速脉冲开关特性,正脉冲促进缺陷向CF上方半球形体积回迁,恢复低阻态;负脉冲则促使缺陷远离该区域,氧化材料并增加器件电阻。关键器件参数提取实验显示,器件在最大和最小电导(gmax和gmin)处具有明显分布,有效状态数(Nstate)平均为27个电导水平。更新干扰测试结果表明,该模拟ReRAM技术对半幅Vs脉冲(即随机全并行阵列更新中的非重合情况)具有卓越的抵抗能力。
通过COMSOL Multiphysics进行3D有限元仿真,求解稳态连续性和焦耳热方程,提取了开关层内的电场和温度分布。仿真结果显示,CF作为底电极延伸,导致大部分电场降落在CMO和CF界面处,在CMO层的有源开关区域产生高度集中的电场。电场诱导的电流导致CMO层内限定区域温度显著升高,在点A(+0.7V)和点B(-1.1V)处观察到纳米级CF上方的明显温度集中。
进一步研究发现,CMO薄膜中的最高温度(TMax)随施加电压幅值显著增加。从开关起始点开始,电压的微小增加即可加速电流-温度反馈,促进阻变开关。因此,电导变化Δg对施加脉冲幅值呈现高度非线性响应,使器件在半幅Vs脉冲下不改变其电导。极端情况测试表明,即使在最低电阻态下承受1000个非重合脉冲,器件仍保持稳定的电阻状态,证明了该细丝型模拟ReRAM技术的卓越抗干扰能力。
研究人员使用定制测试系统对5×5阵列进行电学表征,该系统能够生成任意波形信号并同时单独测量多个通道的输出响应。单存储器访问方案显示,器件的电导状态不受数百个半幅Vs脉冲的干扰。准静态电压扫描和脉冲稳定性测试进一步证实,器件在高于半幅Vs的要求苛刻的0.7V应力信号下仍不受影响。
非线性因子k的测量结果接近零,表明器件对更新干扰具有本质上的强健性,实现了高度可扩展ReRAM阵列架构中的全并行权重更新。将更新干扰测试扩展到阵列中多个器件的每个电导边界处高达100万(1M)个非重合脉冲,实验结果证明了该模拟ReRAM技术的强大更新恢复能力。即使在施加100万干扰脉冲的苛刻条件下,器件电导在10万脉冲后仍未显示任何漂移趋势。
基于实验结果,研究团队使用传统随机梯度下降(SGD)算法评估了存内神经网络学习性能。采用包含784、256和10个神经元的三层神经网络结构,包含203,264个突触模拟存储器。仿真中采用软边界模型来模拟模拟ReRAM器件的真实电导更新行为,蓝色线条代表k=0.005的器件模型,黑色线条显示易受干扰脉冲影响的示例器件模型(k=0.2),红色数据代表k=0的理想情况作为比较参考。
仿真结果显示,理想情况平滑收敛到系统最佳性能,达到90.6%的测试准确率;本研究案例(蓝线)显示测试误差略有波动但仍成功收敛,达到89.08%的测试准确率;而k=0.2的情况仅显示48.82%的低性能。这表明确保更新抗干扰性对于使用模拟新兴存储器进行片上学习的成功至关重要。
系统分析表明,要实现神经网络训练的成功收敛,需要超低k值(小于0.01)。有趣的是,k的不对称性会显著降低学习性能,可能导致权重持续单向偏移,破坏神经网络学习。通过与最先进的Tiki-Taka(TT)算法集成,该抗干扰ReRAM技术将学习性能提升至95.2%,接近浮点(FP)基线水平。
与其他新兴存储器器件相比,该模拟ReRAM技术在开关操作方面表现出竞争性性能,同时在更新抗干扰性方面优于其他技术。研究表明,用于模拟存内训练应用的器件更新干扰定义需要重新考虑,应对器件进行适当的研究方法进行彻底研究。该CMO/HfOx模拟ReRAM利用预形成的纳米级CF有效局域化模拟阻变开关,增强了开关非线性,在10万脉冲后未显示显著的电导漂移,实现k<0.005(标准差0.025)的优异性能。
针对非线性因子的不对称性,研究人员讨论了潜在的优化方法,包括修改脉冲方案设计阵列输入的随机比特流基线电压水平,以及通过修改神经网络学习超参数(如增加随机脉冲概率同时减少比特流长度BL)来进一步优化。
该研究展示了一种基于350纳米硅节点、采用CMOS兼容材料和工艺的抗干扰模拟ReRAM。该器件具有适用于存内训练加速器的 compelling 特性,如60 ns快速线性开关和开环操作中的模拟记忆状态。通过COMSOL Multiphysics仿真揭示了纳米细丝在阻变开关过程中诱导热电能量集中的重要作用,并广泛研究了其对输入电压开关响应的高度非线性。此外,在ReRAM阵列芯片上实验证明了抗干扰的并行权重映射。硬件感知神经网络仿真通过考虑实验发现,对学习准确率进行了全面评估,结果突显了CMO/HfOx ReRAM技术在存内训练解决方案中的巨大潜力。
ReRAM材料层在后端工艺(BEOL)与0.35μm CMOS芯片集成。在中间介质层上,使用等离子体增强原子层沉积(PEALD)在300°C下沉积20 nm TiN底电极和4 nm亚化学计量HfOx层。形成20 nm导电金属氧化物层后,通过溅射沉积20 nm TiN顶电极,随后是50 nm W覆盖层。使用干法刻蚀工具定义有源ReRAM结构,并通过PECVD使用Si3N4层钝化表面。开通访问单元的通道后,沉积最终的W金属层用于布线。
快速脉冲测量使用Keithley 4200A机器和脉冲测量单元(PMU)收集亚微秒范围内的数据。阵列测量设置基于主机计算机和National Instruments(NI)构建,通过主机上的基于Python的图形用户界面(GUI)进行控制。NI机箱中的多通道模拟输出(PXIe-6739)、模拟输入(PXIe-4309)和开关(PXIe-2571)模块通过定制设计的PCB互连,使设置能够同时执行偏置和读取操作。
硬件感知神经网络仿真使用MATLAB进行片上训练,使用IBM AI硬件工具包(AIHwKit)进行Tiki-Taka算法的扩展仿真。为实现负权重突触,假设使用主模拟存储器阵列的减法方案。参考电阻预编程到器件电导范围的中间值,对应w=0。实验中,除使用softmax函数的最后一层神经元外,使用sigmoid函数进行神经元激活。仿真使用传统随机梯度下降(SGD)算法进行通用分析。
生物通微信公众号
知名企业招聘