背景音乐：一种基于块处理单元的集成GEMM加速器，通过异常值感知的合并-分割块量化技术，实现硬件高效的大语言模型推理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Circuits and Systems I: Regular Papers》：BGM: A Block Processing Unit-Integrated GEMM Accelerator for Hardware-Efficient LLM Inference via Outlier-Aware Merge-and-Split Block Quantization

【字体：大中小】 时间：2026年06月10日 来源：IEEE Transactions on Circuits and Systems I: Regular Papers 5.2

编辑推荐：

　　摘要：大型语言模型（LLMs）的快速扩展使得内存容量、带宽和能效成为实际应用中的关键瓶颈。量化是一种有效的方法来降低这些成本，但传统的张量和通道级量化由于LLM权重和激活值中的异常值而导致严重的精度损失。尽管块量化通过局部化异常值效应提高了鲁棒性，但直接减少块大小会引入大量的

摘要：

大型语言模型（LLMs）的快速扩展使得内存容量、带宽和能效成为实际应用中的关键瓶颈。量化是一种有效的方法来降低这些成本，但传统的张量和通道级量化由于LLM权重和激活值中的异常值而导致严重的精度损失。尽管块量化通过局部化异常值效应提高了鲁棒性，但直接减少块大小会引入大量的元数据开销，并显著增加后处理单元（PPUs）和累加器的硬件成本。此外，现有的考虑异常值的块量化方法在块大小的可扩展性方面仍然有限，并且依赖于简化的在线异常值检测标准，这些标准无法达到基于均方误差（MSE）的最优性。本文提出了BGM，这是一种用于LLM推理的GEMM加速器，它共同设计了考虑异常值的混合块大小量化和专用硬件支持。所提出的合并-分割块（M&SB）量化采用1:1:2:4的混合块大小结构，仅选择性地分割包含异常值的子块，同时合并其余子块，从而减少量化误差并补偿元数据开销。为了高效支持这种混合块大小执行，我们设计了一个带有子PPU和基于2层FIFO的动态调度机制的块处理单元（BPU），避免了简单设计中的线性硬件开销增长。我们还提出了基于零计数和方差的准则（ZVC），这是一种轻量级的在线准则，可以在不需要基于MSE的选择所需的昂贵量化-反量化误差累积的情况下做出分割/合并决策。RTL综合和加速器级评估表明，BGM的核心能效比最强的基线加速器高出

2.95×，并且实现了高达

3.04× 的加速比，以及

2.90× 的端到端能效提升...

显示更多

联系信箱：

粤ICP备09063491号

摘要：

热点排行