迈向基于浮点运算的AI加速:采用非均匀数据格式和减少乘法运算的混合PIM技术
《ACM Transactions on Design Automation of Electronic Systems》:Towards Floating Point-Based AI Acceleration: Hybrid PIM with Non-Uniform Data Format and Reduced Multiplications
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Design Automation of Electronic Systems
编辑推荐:
神经网络主流模型中的矩阵向量乘法、元素相乘和深度卷积存在大数据移动问题,影响推理性能。新型存算一体架构可缓解此问题,但面临浮点精度支持不足、SRAM存储受限及低设备利用率三重挑战。本文提出RRAM与3D-SRAM混合存算架构,结合指数自由的非均匀数据格式优化浮点精度运算,设计乘法免费的近似浮点乘法算法,并创新硬件结构实现高能效比。实验表明在CNN和LLM上分别获得99.4倍速度提升和33.9倍能效增益,精度损失不超过3.01%。
摘要
神经网络(NNs)在人工智能的各个领域展现了出色的性能。然而,这些主流模型中的主要运算,包括矩阵-向量乘法(MVM)、元素级乘法(EWM)和深度卷积(DWConv),在计算过程中需要大量的数据传输,这极大地影响了神经网络的推理性能。新兴的“处理在内存中”(Processing-In-Memory, PIM)架构显示出克服内存墙问题的巨大潜力。然而,由于受支持的数据格式和运算符类型的限制,直接将PIM架构应用于神经网络加速面临三个挑战:(1)为了确保算法的高精度,广泛采用了浮点数(FP)格式。但是,基于电阻式随机存取存储器(RRAM)的模拟PIM架构在模拟域中执行整数(INT)矩阵-向量乘法,这限制了它们对更精确的FP格式的应用;(2)基于静态随机存取存储器(SRAM)的数字PIM架构需要额外的电路来支持FP格式,而SRAM的容量无法满足最新大型语言模型(LLMs)的存储需求;(3)在执行累积步骤较少的运算(如EWM和DWConv)时,PIM架构中只有少数内存单元被激活,导致设备利用率严重不足。
为了解决上述挑战,本文提出了一种基于RRAM和3D-SRAM的混合PIM架构,实现了基于FP的算法精度、高设备利用率和高能效。在软件层面,我们首先分析了量化误差对神经网络推理精度的影响。对于对量化误差不敏感的MVM运算,我们提出了基于PIM的无指数非均匀(PN)数据格式。所提出的PN格式可以通过基于位切片的全整数运算灵活调整,以适应非均匀分布并接近FP格式的算法精度。对于对量化误差敏感的EWM/DWConv运算,我们引入了无乘法的近似FP乘法来减少额外的硬件开销。在硬件层面,我们提出了一种混合PIM架构,包括使用移位加法进行PN矩阵-向量乘法的RRAM模拟PIM,以及用于DWConv/EWM运算的高利用率3D-SRAM数字PIM。在卷积神经网络(CNNs)和无注意力机制的LLMs上的广泛实验验证表明,与GPU和PIM基线相比,所提出的PIM架构分别实现了高达99.4倍和33.9倍的加速,并且能效提高了5697.7倍和8.2倍。通过所提出的PN格式和近似FP乘法,CNNs和无注意力机制的LLMs的算法精度分别提高了3.01%和10.18%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号