DA-VinCi:一种利用内存计算的深度学习加速器框架
《ACM Transactions on Reconfigurable Technology and Systems》:DA-VinCi: A Deeplearning Accelerator Overlay using in-Memory Computing
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Reconfigurable Technology and Systems
编辑推荐:
FPGA内存计算加速器设计面临性能瓶颈,本文提出DA-VinCi架构通过新型PIM Tile结构和系统级框架实现737MHz高频运行,支持线性扩展至60K以上计算单元,在MLP、RNN等模型推理中较现有加速器性能提升达201倍。
摘要
当今深度学习模型所依赖的矩阵运算通常在特定于SIMD领域的加速器中实现[1–19]。包括GPU和阵列处理器在内的SIMD加速器能够有效利用计算密集型模型中的并行性,但对于内存密集型模型而言,其效率可能会降低。人们正在探索基于内存处理(PIM)的架构,以提升这类模型的能效和可扩展性能[20–33]。现代现场可编程门阵列(FPGA)在器件内部分布了数百兆比特的SRAM作为独立的内存资源,这使其成为开发定制的“处理器在内存中”(Processor In/Near Memory)加速器的理想平台。已经提出了多种基于PIM阵列的加速器设计[24–31],以充分利用这一丰富的内部带宽。然而,迄今为止的研究结果表明,基于FPGA的PIM架构在系统时钟频率下的运行效率远低于芯片的BRAM最大工作频率;此外,这些设计的计算密度与BRAM的密度之间并非呈线性关系。这些结果表明,基于FPGA的PIM架构永远无法与定制的应用特定集成电路(ASIC)加速器相竞争。
在本文中,我们介绍了DA-VinCi——一种利用“内存计算”技术的深度学习加速器叠加层。DA-VinCi是首个能够以器件BRAM的最大工作频率运行的可扩展FPGA基PIM深度学习加速器。此外,其架构允许计算单元的数量根据BRAM的最大容量和最大工作频率进行线性扩展。DA-VinCi采用可编程指令集架构(ISA),使得同一设计能够实现多种内存密集型深度学习模型(包括MLP、RNN、LSTM和GRU网络)的低延迟推理。DA-VinCi的可扩展性和高工作频率得益于全新的“处理器在内存中”(PIM)模块架构以及高度可扩展的系统级框架。实验结果显示,在Alveo U55芯片(工作频率为737 MHz,即BRAM的最大工作频率)上,DA-VinCi能够将处理单元数量线性扩展至BRAM容量的100%(超过60K个处理单元)。对比研究显示,DA-VinCi在深度学习应用中的推理延迟方面相比现有最佳PIM加速器提升了201倍,相比基于PIM的FPGA加速器提升了87倍,相比FPGA上的定制深度学习加速器提升了57倍。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号