《Advanced Intelligent Systems》:A Memristor-Based In-Memory Computing System-on-Chip with Efficient Depthwise Convolution
编辑推荐:
基于忆阻器交叉阵列的存内计算(IMC)提供了一种加速神经网络的有前景的途径,其通过在存储器内直接执行模拟计算,从而最小化数据移动并提升能效。尽管先前的工作主要聚焦于密集神经运算,但深度可分离卷积(DWC)——轻量级模型(如MobileNets)中的关键运算——
基于忆阻器交叉阵列的存内计算(IMC)提供了一种加速神经网络的有前景的途径,其通过在存储器内直接执行模拟计算,从而最小化数据移动并提升能效。尽管先前的工作主要聚焦于密集神经运算,但深度可分离卷积(DWC)——轻量级模型(如MobileNets)中的关键运算——由于其有限的跨通道数据复用及非规则访问模式,带来了独特的挑战。本研究提出了一种面向高效忆阻器DWC加速的新型IMC架构。研究人员所设计的架构采用了之字形选通线拓扑,相较于传统的1T1R(1晶体管1电阻器)交叉阵列显著改善了存储利用率,同时保持了密集运算的吞吐量和能效。研究人员制造了实现所提出架构的系统级芯片(SoC)并实验验证了其性能。该SoC采用65 nm互补金属氧化物半导体(CMOS)工艺制造,在100 MHz下实现了21.3 TOPS/W的实测能效,并将深度可分离层的单阵列权重利用率提升至约100%。在视觉唤醒词(VWW)数据集上对定制MobileNetV1进行端到端部署,推理准确率达到了80.36%,与量化为4-bit精度的相同软件模型相当。这一基于忆阻器IMC SoC的深度可分离卷积的首次硬件验证,确立了忆阻器IMC对于下一代边缘人工智能加速器的就绪性。
随着神经网络在移动与边缘设备中的广泛部署,传统冯·诺依曼架构中处理器与存储器分离所导致的"存储墙"瓶颈日益凸显。存内计算(IMC)作为一种新兴计算范式,通过在存储阵列内部直接执行计算——特别是神经网络中占主导地位的向量矩阵乘法(VMM)——来克服这一局限,从而最小化数据搬运开销并显著提升能效与吞吐量。忆阻器交叉阵列凭借其高密度存储特性及并行执行模拟乘累加(MAC)运算的能力,成为IMC实现的理想载体。然而,现有研究多集中于全连接层与标准卷积等密集运算,对于深度可分离卷积(DWC)关注不足。DWC作为MobileNets等轻量级架构的核心原语,通过在每个输入通道上独立应用滤波器来降低计算复杂度,但其有限的跨通道数据复用与非规则访问模式给IMC映射和数据流设计带来了独特挑战:每个滤波器需单独处理,易导致存储器利用率低下、访问模式非规则化及并行性开发困难。尽管已有基于传统CMOS技术的DWC架构设计,以及若干忆阻器方案被提出,但支持DWC的完整流片实验验证长期缺失。为此,研究人员开展了面向高效DWC加速的忆阻器IMC架构研究,旨在填补这一空白并推动忆阻器IMC在边缘AI场景中的应用。
研究人员开展了以下研究并得出相应结论:提出了一种之字形选通线拓扑的深度可分离交叉阵列(dw-xbar)架构,在保持与传统1T1R交叉阵列相当的吞吐量和能效的同时,将深度可分离层的单阵列权重利用率提升至约100%;制造了首款支持深度可分离卷积端到端硬件加速的忆阻器/CMOS系统级芯片,采用65 nm CMOS工艺,实测能效达21.3 TOPS/W(100 MHz);通过硬件感知部署策略,将定制MobileNetV1Small模型映射至异构SoC,在视觉唤醒词数据集上实现80.36%的推理准确率,与4-bit量化软件模型相当;建立了面向忆阻器IMC SoC的深度可分离卷积神经网络初始部署流程。该工作作为《Advanced Intelligent Systems》发表的论文,确立了忆阻器IMC对深度可分离卷积工作负载在芯片级别的就绪性,标志着该领域的重要里程碑。
研究所采用的主要关键技术方法包括:采用之字形选通线拓扑的忆阻器交叉阵列架构,该设计通过28条之字形SEL路径覆盖9×28=252个器件,使每个位线(BL)可并行处理28个3×3二维卷积;异构集成策略,将10个神经处理单元(NPU)集成于SoC,其中1个专用深度可分离NPU(DW NPU)处理DWC层,9个标准NPU处理点积/密集层;量化与校准技术,包括通道级尺度与零点的非对称量化、针对跨阻放大器和ADC非理想性的逐BL线性校准,以及三点零校正项;多子阵列补偿技术,利用第二子阵列动态确定缩放因子以补偿第一子阵列的残余编程误差;以及基于嵌入式RISC-V CPU的层调度与硬件控制。
研究结果部分如下。
深度可分离卷积原理与系统概述:研究人员首先阐明了深度可分离卷积的分解原理。标准卷积层具有n个尺寸为K
h×K
w的滤波器,作用于尺寸为m×h×w的输入,输出形状为n×h×w,参数量为n·m·K
h·K
w,MAC运算量为n·m·K
h·K
w·h·w。深度可分离卷积(DSC)通过两个步骤实现相同变换:深度可分离卷积(DWC)阶段应用m个K
h×K
w×1的核捕获通道内空间相关性,随后点积卷积(PWC)阶段以n个1×1×m的核跨通道重组信息。DSC总参数为m·K
h·K
w+n·m,总MAC数为m·K
h·K
w·h·w+n·m·h·w。对于典型3×3核及n=32的情况,计算量约为标准卷积的1/7;对于深层MobileNet类层,渐近缩减接近1/(K
hK
w)≈9倍。研究所提出的异构推理系统中,嵌入式RISC-V CPU负责将各层调度至适当硬件单元。
面向高效DWC的架构设计:该部分详细描述了所提出的DWC加速架构。制造的SoC包含10个计算核心或NPU,每个NPU配备一个256×256交叉阵列、256个8-bit数模转换器(DAC)和256个8-bit模数转换器(ADC)。深度可分离NPU包含八个阵列尺寸为252×28的dw-xbar模块。与传统1T1R交叉阵列的关键区别在于SEL线路由方式:28条SEL采用之字形路径,每条路径含9个斜段,启用252个器件。当启用SEL0时,可在28个BL上并行评估最多28个3×3二维卷积;启用SEL1则激活SEL0下一行的单元,访问另一组28个卷积核。由此,SEL0至SEL27可访问总计28组卷积核,实现100%的dw-xbar单元利用率。相比之下,常规交叉阵列中每个输入仅能被一个BL利用,导致深度可分离核只能使用块对角单元,利用率低下。
定制深度可分离卷积层与实验验证:研究人员开发了支持三种推理模式的定制DWC层:标准浮点模式、伪量化模式及硬件模式。前两种模式在软件中运行,第三种直接控制硬件。由于忆阻器交叉阵列仅支持非负VMM,输入和权重被量化为0–255范围内的无符号整数值,通过通道级尺度(s
w、s
x)和零点(Z
w、Z
x)进行量化,计算后再反量化。核心计算由无符号深度可分离引擎完成,将输入展开为与核同尺寸的块,执行VMM后再展开结果。硬件模式下,将输入块和权重映射至深度可分离交叉阵列,控制硬件VMM,随后应用线性校准补偿跨阻放大器和ADC的非理想性,最后进行零点校正。该自定义层还包含多子阵列补偿技术,通过第一子阵列的残余编程误差动态确定第二子阵列的缩放因子,使两个补偿器件提供约4-bit有效权重精度。
系统级表征与结果:研究人员首先使用MNIST简单模型验证DW NPU基本功能,随后采用定制MobileNetV1Small模型进行完整验证。该模型以96×96 RGB图像为输入,包含一个标准3×3卷积茎层、五个深度可分离卷积块(通道宽度32/64/64/128/128)及全局自适应平均池化与128→2线性分类器,总参数量36K,批量256时Mult-Add运算量2.65G。五个深度可分离层映射至专用DW NPU(NPU0),五个点积层映射至标准NPU(NPU1–NPU5)。当通道数N超过28时,使用额外SEL控制的附加斜线组。硬件实测推理准确率为80.36%,与4-bit软件量化基线(79.34%)相当,确认硬件权重有效精度约为4-bit。与等效全卷积基线相比,DSC显著降低运算量。NPU核心峰值吞吐量为0.254 TOPS(500 ns VMM周期内248×256×2次运算),NPU核心能效11.9 TOPS/W(400 MHz)及21.3 TOPS/W(100 MHz),优于28 nm SRAM-CIM加速器MixCIM报告的17.2 TOPS/W,较NVIDIA A100 GPU的约2.08 TOPS/W INT8效率提升超过10倍,且唯一支持非易失性权重驻留操作。
研究讨论与结论总结如下。
该研究报道了首款端到端硬件加速深度可分离卷积的忆阻器/CMOS系统级芯片。所提出的之字形选通线拓扑将深度可分离层的单阵列权重利用率提升至约100%,同时与标准NPU共享相同的外围电路且不引入额外模拟非理想性。采用65 nm CMOS工艺制造的SoC每NPU实现0.254 TOPS吞吐量,100 MHz下达21.3 TOPS/W能效,已匹配最先进的28 nm SRAM-CIM深度可分离卷积加速器,并超过NVIDIA A100 GPU约2.08 TOPS/W的INT8效率逾10倍,意味着显著的工艺节点归一化能效优势,且唯一支持非易失性权重驻留操作。部署于视觉唤醒词基准的定制MobileNetV1达到与4-bit量化软件模型相当的端到端推理准确率。该SoC在商业代工厂工艺中的制造及真实DNN基准上的端到端验证,确立了忆阻器IMC对深度可分离卷积工作负载在芯片级别的就绪性,代表了此前忆阻器深度可分离卷积工作尚未达到的里程碑。
除器件和电路验证外,该工作还建立了异构忆阻器IMC SoC上深度可分离卷积神经网络的初始部署流程,涵盖层划分、异构深度可分离/点积映射、之字形深度可分离核放置、校准感知编程、多子阵列补偿及RISC-V层调度等步骤。尽管尚未形成全自动AIMC编译器,但已展示如何将非平凡卷积神经网络映射至混合深度可分离NPU/标准NPU架构并在硬件中端到端执行。该结果证实忆阻器IMC可从密集核扩展至轻量级神经架构,拓展了其在能量受限边缘AI场景中的适用性。