适用于边缘推理的、具备区域和利用效率优化的LLM加速器，采用融合式投机解码技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》：Area- and Utilization-Efficient LLM Accelerator With Fused Speculative Decoding for Edge-Side Inference

【字体：大中小】 时间：2026年02月13日 来源：IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐：

　　边缘设备大语言模型推理中，传统推测解码因草稿与验证阶段计算特性差异导致硬件优化困难。本文提出Fused Speculative Decoding（FSD）方法，通过将草稿与验证阶段统一为矩阵乘法运算，减少内存访问26.11%并降低推理延迟，配合FSD-Acc硬件加速器在Xilinx ZCU102 FPGA上实现，面积效率提升2.53 TPS/kDSP，逻辑效率提升5.90 TPS/kLUT，功耗效率提升2.02。

摘要：

在边缘设备上对大型语言模型（LLMs）进行推理一直是一个挑战，由于自回归推理机制以及庞大的参数数量，导致推理延迟较长。尽管提出了推测性解码（speculative decoding）来加速推理过程，但这给硬件加速器的设计带来了挑战，因为编码阶段和验证阶段的计算特性不同，使得难以同时优化芯片面积和硬件利用率。本文介绍了一种名为Fused Speculative Decoding（FSD）的方法，通过在推理过程中将所有操作统一为通用矩阵乘法来优化LLM在边缘设备上的推理性能。所提出的FSD-Infer算法结合了传统推测性解码的编码和验证阶段，实现了权重共享，减少了片外内存访问次数，并降低了推理延迟，且无需重新训练或微调。在硬件层面，我们设计了FSD-Acc这种高效能的硬件加速器，能够有效执行FSD-Infer所支持的融合操作。实验结果表明，与自回归推理相比，FSD-Infer可将EMA（Execution Memory Access）降低多达26.11%，算术运算强度提高10.26倍，并将GPU推理速度提升1.38倍。当在Xilinx ZCU102 FPGA板上以200 MHz的工作频率运行时，FSD-Acc实现了最佳的面积效率和能源效率，其性能分别比现有的边缘推理LLM加速器高出2.53倍（TPS/kDSP）、5.90倍（TPS/kLUT）和2.02倍（TPS/kLUT）。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号