CD-LLM:一种异构多FPGA系统,采用专用计算架构批量解码700亿个以上的大型语言模型(LLMs)
《ACM Transactions on Reconfigurable Technology and Systems》:CD-LLM: A Heterogeneous Multi-FPGA System for Batched Decoding of 70B+ LLMs using a Compute-Dedicated Architecture
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Reconfigurable Technology and Systems
编辑推荐:
针对大规模LLM解码中FPGA方案吞吐量低、成本高的问题,本文提出CD-LLM异构多FPGA架构。通过内存对齐混合精度量化压缩模型至3.45位,结合专用FPGA架构提升性能,采用主从FPGA流水线实现83.08%和68.30%的利用率。实验表明,在70B参数模型上吞吐量达2721.79 tokens/s,较RTX3090系统提升6.11倍,成本降低4.71倍,优于FlightLLM系统16.15%和14.56%。
摘要
具有700亿个或更多参数的大型语言模型(LLMs)越来越多地被应用于基于云的模型即服务(MaaS)场景中。为了满足这些部署的需求,MaaS提供商需要批处理LLM解码系统,这些系统能够在实现高系统吞吐量(STP)的同时最小化总拥有成本(TCO)。然而,现有的基于FPGA的解决方案主要关注小批量或单批量推理,无法满足批处理LLM解码的计算需求,从而导致性能差距高达7.96倍。此外,在批处理解码场景中,多头注意力操作的使用率很低(例如,在A100 GPU上仅为3.72%),这进一步限制了吞吐量并增加了TCO。
为了解决这些挑战,本文介绍了CD-LLM,这是一种专为高效批处理解码具有700亿以上参数的LLMs而设计的异构多FPGA系统,它基于计算专用(Compute-Dedicated)架构构建。首先,我们提出了一种内存对齐的混合精度量化引擎来减少工作负载。通过采用基于重要性的量化方法,我们将Llama-3.1-70B压缩为有效的3.45位表示,并通过内存对齐的数据打包实现了72.33%的带宽利用率。其次,我们提出了一种计算专用FPGA架构,该架构通过利用FPGA特有的资源(如DSP、BRAM和LUT)来最大化峰值性能。在U250 FPGA上,计算专用架构使CD-LLM能够达到59.90 TOPS的峰值性能(600 MHz)。最后,我们介绍了一种异构的主从多FPGA系统以实现更高的利用率。通过在主从FPGA之间流水线化注意力计算和线性层计算,CD-LLM的线性层利用率达到了83.08%,注意力层利用率达到了68.30%。
CD-LLM采用异构多FPGA架构设计,其中包含一个支持HBM的FPGA作为主加速器,以及八个基于DDR的FPGA作为从加速器。当用于Llama-3.1-70B模型的推理,且批量大小为256时,CD-LLM的吞吐量达到了2721.79个令牌/秒。与八卡RTX3090 GPU系统相比,这代表了STP提高了6.11倍,TCO降低了4.71倍。此外,CD-LLM的性能显著优于最先进的八卡FPGA加速器FlightLLM,其STP提高了16.15倍,TCO降低了14.56倍。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号