一种端到端的框架,用于编译密集矩阵和稀疏矩阵与向量的乘法运算,以实现FPGA-HBM加速
《ACM Transactions on Architecture and Code Optimization》:An End-to-End Framework for Compiling Dense and Sparse Matrix-Vector Multiplications for FPGA-HBM Acceleration
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
高带宽内存(HBM)与FPGA定制能力的结合可显著提升内存密集型任务性能,如矩阵-向量乘法(MVM)。本文提出端到端加速框架,软件工具Matio自动检测C/C++代码中的MVM和矩阵乘法(MM)内核,并替换为FPGA加速调用,检测准确率达90%,速度比现有方法快45倍以上;硬件部分VecMADS架构利用HBM带宽突破内存瓶颈,在GPU库cuSPARSE和hipBLAS上分别实现1.5倍吞吐量提升和4.8倍能效优化。
摘要
高带宽内存(HBM)所提供的带宽提升,以及现场可编程门阵列(FPGA)在处理和内存层次结构方面的定制能力,使得在图形处理、排序、机器学习和数据库分析等内存密集型工作负载中性能得到了显著提升。集成3D堆叠DRAM内存的现代系统可以通过将部分计算任务卸载到靠近HBM的加速器上来实现近内存计算(NMC)范式。
矩阵-向量乘法(MVM)核这类对内存依赖性强的计算任务,在FPGA-HBM平台上执行时能够获得显著优势。MVM核大致可分为两类:密集型(通用矩阵-向量乘法,GEMV)和稀疏型(稀疏矩阵-向量乘法,SpMV)。现有研究主要集中在针对FPGA-HBM优化SpMV算法上,而统一解决方案的研究相对较少。在这项工作中,我们提出了一个端到端的框架,用于编译适用于FPGA-HBM加速的MVM核。该框架包括软件和硬件两部分。软件组件中包含了MATIO编译器,这是一种新型工具,能够识别C或C++代码中的MVM和矩阵乘法(MM)核,并将这些运算替换为对FPGA加速器的调用。在实际收集的GitHub基准测试数据中,MATIO能够检测出90%的MVM和MM核;其检测速度比现有最先进的方法快至少45倍。在硬件层面,我们设计了VecMADS这一新型FPGA架构,旨在高效处理GEMV和SpMV运算。该架构充分利用了HBM的高带宽特性,有效克服了内存瓶颈,为在FPGA上加速矩阵-向量乘法提供了全面的解决方案。评估结果显示,与GPU上的cuSPARSE库相比,VecMADS的吞吐量提高了1.5倍,能效提升了4.8倍;对于密集型基准测试,VecMADS的吞吐量甚至比运行在GPU上的hipBLAS库高出1.26倍。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号