HighP:具有高银行级并行性的SpGEMM内存加速技术
《IEEE Transactions on Computers》:HighP: In-Memory Acceleration of SpGEMM With High Bank-Level Parallelism
【字体:
大
中
小
】
时间:2025年12月15日
来源:IEEE Transactions on Computers 3.8
编辑推荐:
针对广义稀疏矩阵乘法(SpGEMM)内存瓶颈问题,提出基于近行缓冲存储器(PIM)的HighP加速器,通过非冲突列并行处理机制提升内存带宽利用率,实验表明性能较现有加速器提升17.88倍,较PIM方案提升8.19倍。
摘要:
广义稀疏矩阵乘法(SpGEMM)是一种关键的计算原语,由于其固有的不规则数据访问模式,对内存的需求非常高。近银行内存处理(PIM)是一种有前景的技术,可以通过在数据存储的银行附近进行计算来克服SpGEMM的内存瓶颈。然而,早期的PIM研究由于银行级并行性较低,未能充分利用高内存带宽。因此,正如我们深入的实验分析所观察到的,80%的内存带宽被浪费了。我们在本文中的关键见解是:在SpGEMM中,那些非冲突的矩阵列(即每列中最多只有一个非零元素的列)可以在不同的银行中同时进行处理。因此,我们提出了HighP,这是一种具有高银行级并行性的近银行PIM加速器。我们首先提出了一种基于集合的搜索机制,该机制可以通过集合操作自动找到非冲突的列。然后,我们开发了一种基于DIMM的PIM架构,并为SpGEMM提供了详细的硬件和工作流程设计。集合操作逻辑和统一的高速缓冲区内存管理分别旨在实现高计算并行性和提高数据重用率。与现有的最先进SpGEMM加速器相比,HighP的性能提高了高达17.88倍;与现有的最先进PIM解决方案相比,性能提高了高达8.19倍。
引言
广义稀疏矩阵乘法(SpGEMM)是许多重要领域中的基本计算原语,例如图分析[1]、机器学习[2]和科学计算[3]。高效的SpGEMM执行对于这些应用实现高性能至关重要。近年来,已经提出了几种加速器[4]、[5]、[6]、[7]、[8]、[9]来加速SpGEMM。然而,对于大型实际稀疏矩阵,SpGEMM对内存的需求非常高,并且具有高内存带宽要求。现有的SpGEMM加速器由于SpGEMM的数据局部性较差,需要在片上逻辑和片外内存之间进行大量的数据传输。这些大量的DRAM访问会加重有限的带宽负担并增加能耗。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号