Mosaic系统:基于复合投影剪枝的大语言模型高效压缩新范式

【字体: 时间:2025年08月13日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  针对大语言模型(LLM)在资源受限设备部署的难题,英国圣安德鲁斯大学团队开发了Mosaic系统,创新性地提出复合投影剪枝(composite projection pruning)方法。通过非均匀剪枝策略和投影异常分布(POD)算法,在LLaMa等模型上实现最高84.2%的困惑度降低和31.4%的准确率提升,推理速度提升67%,为边缘计算环境下的模型压缩提供了新思路。

  

在人工智能领域,大型语言模型如GPT-4和LLaMa系列展现出惊人能力的同时,也带来了巨大的计算资源消耗。一个1750亿参数的GPT-3模型需要350GB存储空间和3.14×1023次浮点运算进行训练,部署时甚至需要5块80GB的NVIDIA A100显卡。这种"巨无霸"模型将AI应用牢牢束缚在云端服务器上,严重限制了在移动设备、边缘计算等资源受限场景的应用可能性。

英国圣安德鲁斯大学(University of St Andrews)计算机科学学院的Bailey J. Eccles、Leon Wong和Blesson Varghese团队在《Future Generation Computer Systems》发表的研究,提出了一种名为Mosaic的创新系统。该系统通过独创的"复合投影剪枝"(composite projection pruning)技术,成功实现了大语言模型的高效压缩,为解决这一行业难题提供了新方案。

研究人员采用了三项关键技术:1) 投影异常分布(POD)算法,通过分析激活值和权重矩阵的l2范数,实现参数重要性的细粒度评估;2) 非均匀剪枝策略,针对LLM中7类投影(Q/K/V/O/G/U/D)分别制定剪枝比例;3) 复合剪枝框架,先进行非结构化剪枝保留精度,再通过结构化剪枝减少模型体积。实验使用LLaMa系列模型(7B-13B参数)在5种硬件平台验证,校准数据集来自C4语料库的128个样本。

研究结果显示:

  1. 1.

    剪枝性能方面:在80%剪枝率下,Mosaic相比全局剪枝使LLaMa-3.1-8B的困惑度降低84.2%,准确率提升31.4%。在PTB数据集上,投影剪枝比层剪枝降低45.8%的困惑度。

  2. 2.

    硬件适配方面:在NVIDIA RTX 3080上,复合剪枝使推理延迟降低67%,内存占用减少68%。在树莓派5等边缘设备上,首次实现了10GB以下内存的LLaMa-7B模型部署。

  3. 3.

    微调效率方面:使用Alpaca数据集进行LoRA微调时,Mosaic仅需250步(30分钟)即可达到传统方法1550步(3小时)的精度恢复效果。

这项研究的突破性在于:首次将投影作为LLM剪枝的基本单元,通过POD算法实现了参数重要性的全局评估;创新性地结合非结构化和结构化剪枝优势,在NVIDIA AGX Orin等移动GPU上实现7.19倍的加速比。相比现有剪枝方法,Mosaic系统在模型质量保持和硬件适应性方面展现出显著优势,为在智能手机、物联网设备等终端部署大模型提供了可行路径。未来,该方法可进一步拓展至MoE架构模型,并有望与量化技术结合,推动边缘AI计算的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号