MaGrIP:基于幅度和梯度的剪枝方法,适用于任务无关的大型语言模型

《ACM Transactions on Embedded Computing Systems》:MaGrIP: Magnitude and Gradient-Informed Pruning for Task-Agnostic Large Language Models

【字体: 时间:2025年11月08日 来源:ACM Transactions on Embedded Computing Systems

编辑推荐:

  模型剪枝与轻量化部署研究,提出MaGrIP框架通过幅度和梯度双阈值策略优化LLM压缩,在保持任务性能的同时将Gemma 7B模型体积缩减至5GB(原28GB),Gemma 2B缩减至1.5GB。实测显示压缩后Gemma 7B在ARC-E任务准确率59.26%低于基线81.06%,但Jetson Orin Nano部署时吞吐量提升2.16倍,性能增益2.3倍。

  

摘要

大型语言模型(LLMs)已成为自然语言处理中的基础工具,在各种任务中都取得了先进的性能。然而,由于它们庞大的规模和计算需求,使得在资源受限的环境(如边缘设备和嵌入式系统)中部署变得不切实际。在这项工作中,我们提出了一个名为Magnitude and Gradient-Informed Pruning (MaGrIP)的新框架,该框架可用于对LLMs进行与任务无关的剪枝和压缩。MaGrIP采用双阈值策略,结合基于幅度和梯度的显著性度量来高效地剪除冗余神经元,同时保持任务性能。我们的结果证明了MaGrIP在压缩先进模型方面的有效性。通过该压缩方法,FFN层的总计算复杂度从原来的O(d?h)降低到了O((d?q)?h)。在模型规模方面,我们的剪枝方法显著减少了模型参数和存储需求,同时在WikiText-2上的困惑度评分仍具有竞争力。对于Gemma 7B模型,我们的方法将其总大小从28 GB减少到了5 GB;而对于Gemma 2B模型,MaGrIP将其大小从8 GB减少到了1.5 GB。此外,MaGrIP在多个基准测试(如BOOLQ、ARC-E和CSQA)中表现出稳健的性能。具体来说,经过50%剪枝后的Gemma 7B模型在ARC-E上的准确率为59.26%,而基线模型的准确率为81.06%;在BoolQ上的准确率为64.74%,而基线模型的准确率为59.98%。同样,经过50%剪枝后的Llama 3 8B模型在ARC-E上的准确率为46.76%,而基线模型的准确率为77.57%,这反映了压缩与准确率之间的权衡。使用MaGrIP压缩后的LLMs部署在Nvidia Jetson Orin Nano上时,其吞吐量提高了2.16倍,性能提高了2.3倍,相比基线LLMs有显著提升。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号