一种具有符号幅度表示法和双加法树的精确可扩展加速器
《ACM Transactions on Embedded Computing Systems》:A Precision-Scalable Accelerator with Sign-Magnitude Representation and Dual Adder Trees
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Embedded Computing Systems
编辑推荐:
现有加速器多采用混合精度与稀疏性分离设计,且依赖补码表示,导致资源浪费。本文提出基于符号-幅度处理单元的SM-PE架构,结合动态量化算法DoReFaLike和列级稀疏技术,在55nm和28nm工艺下实现能效比提升15.50-101.54 TOPS/W,性能较现有方案提高1.1-3.9倍。
摘要
目前,有两种主流的加速方法:一种是混合精度(mixed precision),另一种是稀疏性(sparsity)。很少有加速器同时支持混合精度和稀疏性,而且大多数加速器只能在不同层之间配置精度,而无法在同一层内进行精度调整。此外,大多数加速器采用传统的二进制补码(2C)数据表示方法,我们发现这种表示方法在表示有符号数据时会生成许多无效的“1”,这不仅增加了混合精度的计算开销,还导致许多位级稀疏操作变得无效。因此,我们提出了一种高效加速器,该加速器采用了精度可扩展的符号-幅度处理单元(Sign-Magnitude Processing Element,简称SM-PE),这种单元采用了一种新的数据表示方法,并能够灵活支持多种精度计算(2位、4位、8位)和位级稀疏性。此外,我们还提出了一种名为DoReFaLike的动态量化算法以及一种位级列稀疏(Bit-Level Column Sparsity,简称BLCS)技术,以提高SM-PE的效率。在相同的精度要求下,采用SM表示方法的稀疏率比2C格式高出3.5倍。该加速器已在55纳米CMOS ASIC平台上实现。当将其缩放到28纳米工艺时,实验结果表明:在400 MHz的工作频率下,当输入激活值为8位、4位和2位,权重以稀疏的8位精度表示时,该加速器的能效分别达到了15.50 TOPS/W、25.37 TOPS/W和101.54 TOPS/W。与现有的最先进加速器相比,该设计的性能提升了1.1倍至3.9倍。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号