一种具有符号幅度表示法和双加法树的精确可扩展加速器

《ACM Transactions on Embedded Computing Systems》:A Precision-Scalable Accelerator with Sign-Magnitude Representation and Dual Adder Trees

【字体: 时间:2025年11月07日 来源:ACM Transactions on Embedded Computing Systems

编辑推荐:

  现有加速器多采用混合精度与稀疏性分离设计,且依赖补码表示,导致资源浪费。本文提出基于符号-幅度处理单元的SM-PE架构,结合动态量化算法DoReFaLike和列级稀疏技术,在55nm和28nm工艺下实现能效比提升15.50-101.54 TOPS/W,性能较现有方案提高1.1-3.9倍。

  

摘要

目前,有两种主流的加速方法:一种是混合精度(mixed precision),另一种是稀疏性(sparsity)。很少有加速器同时支持混合精度和稀疏性,而且大多数加速器只能在不同层之间配置精度,而无法在同一层内进行精度调整。此外,大多数加速器采用传统的二进制补码(2C)数据表示方法,我们发现这种表示方法在表示有符号数据时会生成许多无效的“1”,这不仅增加了混合精度的计算开销,还导致许多位级稀疏操作变得无效。因此,我们提出了一种高效加速器,该加速器采用了精度可扩展的符号-幅度处理单元(Sign-Magnitude Processing Element,简称SM-PE),这种单元采用了一种新的数据表示方法,并能够灵活支持多种精度计算(2位、4位、8位)和位级稀疏性。此外,我们还提出了一种名为DoReFaLike的动态量化算法以及一种位级列稀疏(Bit-Level Column Sparsity,简称BLCS)技术,以提高SM-PE的效率。在相同的精度要求下,采用SM表示方法的稀疏率比2C格式高出3.5倍。该加速器已在55纳米CMOS ASIC平台上实现。当将其缩放到28纳米工艺时,实验结果表明:在400 MHz的工作频率下,当输入激活值为8位、4位和2位,权重以稀疏的8位精度表示时,该加速器的能效分别达到了15.50 TOPS/W、25.37 TOPS/W和101.54 TOPS/W。与现有的最先进加速器相比,该设计的性能提升了1.1倍至3.9倍。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号