SLIM:一种异构加速器,通过自适应阈值处理实现稀疏大型语言模型的边缘推理
《ACM Transactions on Embedded Computing Systems》:SLIM: A Heterogeneous Accelerator for Edge Inference of Sparse Large Language Model via Adaptive Thresholding
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Embedded Computing Systems
编辑推荐:
边缘计算中稀疏大语言模型高效推理算法与异构硬件协同设计,通过自适应阈值稀疏激活筛选和FFN权重3D NAND存储优化,结合近存储处理与存算一体架构,实现内存占用降低76.2%、吞吐量提升13-18倍、能效比提升9-10倍的边缘端LLM加速方案。
摘要
大型语言模型(LLMs),由Transformer解码器组成,在理解和生成人类语言方面展现了无与伦比的性能。然而,在资源受限的嵌入式设备上高效地进行LLM推理仍然是一个挑战,因为模型规模庞大,且前馈网络(FFN)和多头注意力(MHA)层会导致大量内存密集型操作。现有的加速方法将LLM推理任务卸载到配备昂贵内存和处理单元的异构计算系统上。然而,最近的研究表明,由于LLM在推理过程中存在显著的稀疏性,大部分硬件资源并未得到充分利用。LLM的这种稀疏性为实现内存高效推理提供了良好的机会。在这项工作中,我们提出了SLIM,这是一种针对边缘计算场景优化的算法和硬件协同设计方案。SLIM利用LLM的稀疏性,仅获取被激活的神经元,从而显著减少数据传输量。为此,我们提出了一种基于自适应阈值机制的高效推理算法,可以在几乎不损失准确性的前提下实现运行时可配置的稀疏性。接下来,我们介绍了SLIM异构硬件架构,该架构结合了近存储处理(NSP)和内存处理(PIM)技术的优势。SLIM将FFN权重存储在高密度的3D NAND存储器中,并在NSP单元中计算FFN层,从而减轻了FFN权重带来的高内存需求。算术密度较低的内存密集型MHA操作则在PIM模块中处理。通过利用LLM操作中的固有稀疏性,并将NSP技术与SSD中的PIM技术相结合,SLIM显著降低了内存占用、数据传输量和能耗。同时,我们还提供了将该设计集成到现有SSD系统中的软件支持。我们的综合分析和系统级优化证明了这种针对稀疏性优化的加速器的有效性:与SSD-GPU系统相比,其吞吐量提高了13-18倍,能效提升了9-10倍,同时保持了较低的延迟。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号