适用于边缘推理的、具备区域和利用效率优化的LLM加速器,采用融合式投机解码技术

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:Area- and Utilization-Efficient LLM Accelerator With Fused Speculative Decoding for Edge-Side Inference

【字体: 时间:2026年02月13日 来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐:

  边缘设备大语言模型推理中,传统推测解码因草稿与验证阶段计算特性差异导致硬件优化困难。本文提出Fused Speculative Decoding(FSD)方法,通过将草稿与验证阶段统一为矩阵乘法运算,减少内存访问26.11%并降低推理延迟,配合FSD-Acc硬件加速器在Xilinx ZCU102 FPGA上实现,面积效率提升2.53 TPS/kDSP,逻辑效率提升5.90 TPS/kLUT,功耗效率提升2.02。

  

摘要:

在边缘设备上对大型语言模型(LLMs)进行推理一直是一个挑战,由于自回归推理机制以及庞大的参数数量,导致推理延迟较长。尽管提出了推测性解码(speculative decoding)来加速推理过程,但这给硬件加速器的设计带来了挑战,因为编码阶段和验证阶段的计算特性不同,使得难以同时优化芯片面积和硬件利用率。本文介绍了一种名为Fused Speculative Decoding(FSD)的方法,通过在推理过程中将所有操作统一为通用矩阵乘法来优化LLM在边缘设备上的推理性能。所提出的FSD-Infer算法结合了传统推测性解码的编码和验证阶段,实现了权重共享,减少了片外内存访问次数,并降低了推理延迟,且无需重新训练或微调。在硬件层面,我们设计了FSD-Acc这种高效能的硬件加速器,能够有效执行FSD-Infer所支持的融合操作。实验结果表明,与自回归推理相比,FSD-Infer可将EMA(Execution Memory Access)降低多达26.11%,算术运算强度提高10.26倍,并将GPU推理速度提升1.38倍。当在Xilinx ZCU102 FPGA板上以200 MHz的工作频率运行时,FSD-Acc实现了最佳的面积效率和能源效率,其性能分别比现有的边缘推理LLM加速器高出2.53倍(TPS/kDSP)、5.90倍(TPS/kLUT)和2.02倍(TPS/kLUT)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号