适用于边缘推理的、具备区域和利用效率优化的LLM加速器,采用融合式投机解码技术
《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:Area- and Utilization-Efficient LLM Accelerator With Fused Speculative Decoding for Edge-Side Inference
【字体:
大
中
小
】
时间:2026年02月13日
来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1
编辑推荐:
边缘设备大语言模型推理中,传统推测解码因草稿与验证阶段计算特性差异导致硬件优化困难。本文提出Fused Speculative Decoding(FSD)方法,通过将草稿与验证阶段统一为矩阵乘法运算,减少内存访问26.11%并降低推理延迟,配合FSD-Acc硬件加速器在Xilinx ZCU102 FPGA上实现,面积效率提升2.53 TPS/kDSP,逻辑效率提升5.90 TPS/kLUT,功耗效率提升2.02。
摘要:
在边缘设备上对大型语言模型(LLMs)进行推理一直是一个挑战,由于自回归推理机制以及庞大的参数数量,导致推理延迟较长。尽管提出了推测性解码(speculative decoding)来加速推理过程,但这给硬件加速器的设计带来了挑战,因为编码阶段和验证阶段的计算特性不同,使得难以同时优化芯片面积和硬件利用率。本文介绍了一种名为Fused Speculative Decoding(FSD)的方法,通过在推理过程中将所有操作统一为通用矩阵乘法来优化LLM在边缘设备上的推理性能。所提出的FSD-Infer算法结合了传统推测性解码的编码和验证阶段,实现了权重共享,减少了片外内存访问次数,并降低了推理延迟,且无需重新训练或微调。在硬件层面,我们设计了FSD-Acc这种高效能的硬件加速器,能够有效执行FSD-Infer所支持的融合操作。实验结果表明,与自回归推理相比,FSD-Infer可将EMA(Execution Memory Access)降低多达26.11%,算术运算强度提高10.26倍,并将GPU推理速度提升1.38倍。当在Xilinx ZCU102 FPGA板上以200 MHz的工作频率运行时,FSD-Acc实现了最佳的面积效率和能源效率,其性能分别比现有的边缘推理LLM加速器高出2.53倍(TPS/kDSP)、5.90倍(TPS/kLUT)和2.02倍(TPS/kLUT)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号