HiSpMM:在配备HBM的FPGA上进行的高性能、高带宽的稀疏-密集矩阵乘法运算
《ACM Transactions on Reconfigurable Technology and Systems》:HiSpMM: High Performance High Bandwidth Sparse-Dense Matrix Multiplication on HBM-equipped FPGAs
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Reconfigurable Technology and Systems
编辑推荐:
稀疏矩阵乘法(SpMM)在FPGA上的加速面临PE工作负载不均衡和HBM通道紧密耦合的问题。本文提出HiSpMM架构,通过Dense Row Sharing分散重行计算,解耦HBM访问机制实现独立扩展,并开发自动化设计优化工具。实验表明HiSpMM在失衡矩阵上实现5.81倍速度和5.75倍能效提升,同时在AMD/Xilinx U280 HBM FPGA上平衡矩阵性能保持竞争力。项目源码即将开源。
摘要
稀疏矩阵与密集矩阵相乘(SpMM)是科学计算、机器学习和图分析中的关键操作。然而,在FPGA上加速SpMM面临重大挑战,这主要是由于不规则的内存访问模式和工作负载分布不平衡。在这项工作中,我们解决了配备高带宽内存(HBM)的FPGA上进行SpMM加速时的一个根本性瓶颈问题,即处理单元(PEs)之间的工作负载不平衡。此外,我们还克服了现有设计中的一个可扩展性障碍——即PEs与HBM通道之间的紧密耦合,这种耦合限制了密集矩阵访问的效率。我们还提供了一个自动化的设计空间探索框架。
我们提出了
HiSpMM,这是一种高性能的SpMM加速器架构,它通过引入密集行共享机制来减轻PEs的利用率不足问题,通过解耦的HBM访问机制实现PEs和内存带宽的独立扩展,并通过自动化工具根据
矩阵结构特性和用户定义的硬件约束优化设计参数。与现有技术相比,我们的设计在处理不平衡矩阵时实现了
的速度提升和
的能量效率提升;同时,在AMD/Xilinx U280 HBM FPGA板上处理平衡矩阵时仍能保持竞争力。
我们的HiSpMM项目将在不久的将来在https://github.com/SFU-HiAccel/HiSpMM上开源。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号