一种具有符号幅度表示法和双加法树的精确可扩展加速器

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Embedded Computing Systems》：A Precision-Scalable Accelerator with Sign-Magnitude Representation and Dual Adder Trees

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Embedded Computing Systems

编辑推荐：

　　现有加速器多采用混合精度与稀疏性分离设计，且依赖补码表示，导致资源浪费。本文提出基于符号-幅度处理单元的SM-PE架构，结合动态量化算法DoReFaLike和列级稀疏技术，在55nm和28nm工艺下实现能效比提升15.50-101.54 TOPS/W，性能较现有方案提高1.1-3.9倍。

摘要

目前，有两种主流的加速方法：一种是混合精度（mixed precision），另一种是稀疏性（sparsity）。很少有加速器同时支持混合精度和稀疏性，而且大多数加速器只能在不同层之间配置精度，而无法在同一层内进行精度调整。此外，大多数加速器采用传统的二进制补码（2C）数据表示方法，我们发现这种表示方法在表示有符号数据时会生成许多无效的“1”，这不仅增加了混合精度的计算开销，还导致许多位级稀疏操作变得无效。因此，我们提出了一种高效加速器，该加速器采用了精度可扩展的符号-幅度处理单元（Sign-Magnitude Processing Element，简称SM-PE），这种单元采用了一种新的数据表示方法，并能够灵活支持多种精度计算（2位、4位、8位）和位级稀疏性。此外，我们还提出了一种名为DoReFaLike的动态量化算法以及一种位级列稀疏（Bit-Level Column Sparsity，简称BLCS）技术，以提高SM-PE的效率。在相同的精度要求下，采用SM表示方法的稀疏率比2C格式高出3.5倍。该加速器已在55纳米CMOS ASIC平台上实现。当将其缩放到28纳米工艺时，实验结果表明：在400 MHz的工作频率下，当输入激活值为8位、4位和2位，权重以稀疏的8位精度表示时，该加速器的能效分别达到了15.50 TOPS/W、25.37 TOPS/W和101.54 TOPS/W。与现有的最先进加速器相比，该设计的性能提升了1.1倍至3.9倍。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号