背景音乐:一种基于块处理单元的集成GEMM加速器,通过异常值感知的合并-分割块量化技术,实现硬件高效的大语言模型推理
《IEEE Transactions on Circuits and Systems I: Regular Papers》:BGM: A Block Processing Unit-Integrated GEMM Accelerator for Hardware-Efficient LLM Inference via Outlier-Aware Merge-and-Split Block Quantization
【字体:
大
中
小
】
时间:2026年06月10日
来源:IEEE Transactions on Circuits and Systems I: Regular Papers 5.2
编辑推荐:
摘要: 大型语言模型(LLMs)的快速扩展使得内存容量、带宽和能效成为实际应用中的关键瓶颈。量化是一种有效的方法来降低这些成本,但传统的张量和通道级量化由于LLM权重和激活值中的异常值而导致严重的精度损失。尽管块量化通过局部化异常值效应提高了鲁棒性,但直接减少块大小会引入大量的
摘要:
大型语言模型(LLMs)的快速扩展使得内存容量、带宽和能效成为实际应用中的关键瓶颈。量化是一种有效的方法来降低这些成本,但传统的张量和通道级量化由于LLM权重和激活值中的异常值而导致严重的精度损失。尽管块量化通过局部化异常值效应提高了鲁棒性,但直接减少块大小会引入大量的元数据开销,并显著增加后处理单元(PPUs)和累加器的硬件成本。此外,现有的考虑异常值的块量化方法在块大小的可扩展性方面仍然有限,并且依赖于简化的在线异常值检测标准,这些标准无法达到基于均方误差(MSE)的最优性。本文提出了BGM,这是一种用于LLM推理的GEMM加速器,它共同设计了考虑异常值的混合块大小量化和专用硬件支持。所提出的合并-分割块(M&SB)量化采用1:1:2:4的混合块大小结构,仅选择性地分割包含异常值的子块,同时合并其余子块,从而减少量化误差并补偿元数据开销。为了高效支持这种混合块大小执行,我们设计了一个带有子PPU和基于2层FIFO的动态调度机制的块处理单元(BPU),避免了简单设计中的线性硬件开销增长。我们还提出了基于零计数和方差的准则(ZVC),这是一种轻量级的在线准则,可以在不需要基于MSE的选择所需的昂贵量化-反量化误差累积的情况下做出分割/合并决策。RTL综合和加速器级评估表明,BGM的核心能效比最强的基线加速器高出 2.95×,并且实现了高达 3.04× 的加速比,以及 2.90× 的端到端能效提升...
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号