基于低秩逼近与稀疏化的层选择性剪枝方法LS-PRISM:高效大语言模型压缩新策略

【字体: 时间:2025年08月01日 来源:Neural Networks 6.3

编辑推荐:

  本文提出LS-PRISM(Layer-Selective Pruning via low-Rank approxImation and Sparsification Method),通过动态低秩逼近(Dynamic Rank Selection)和结构化剪枝(unstructured pruning)实现大语言模型(LLMs)的层选择性压缩,在BoolQ/RTE等NLP基准测试中保持性能的同时,将2.5B参数模型压缩12%,为资源受限设备部署提供创新解决方案。

  

Highlight亮点
我们提出LS-PRISM方法,通过以下创新点推动LLM压缩领域发展:
• 首创层选择性压缩机制,动态识别关键矩阵进行低秩逼近(Low-Rank Approximation),通过动态秩选择(DRS)技术自适应确定压缩强度
• 首创将非结构化剪枝(Unstructured Pruning)与低秩逼近协同应用,在Gemma-2B等模型上实现12%参数削减
• 通过LoRA(Low-Rank Adaptation)微调有效恢复性能,在ARC-Challenge等基准测试中保持<1%准确率波动

Overview of the Proposed Method方法概述
LS-PRISM采用两阶段压缩流程:
阶段1:动态低秩逼近
智能筛选各层权重矩阵,基于对损失函数的影响动态分配秩(Rank)。采用"性能增益优先"策略,仅保留能提升模型表现的逼近操作。

阶段2:稀疏化增强
对未进行低秩处理的矩阵实施非结构化剪枝,结合交替方向乘子法(ADMM)优化稀疏模式,最终通过LoRA微调补偿精度损失。

Experimental Setup实验设计
测试平台:
• 模型:Gemma-2B/Phi-1.5/LLaMA3.2-1B
• 基准数据集:BoolQ(语言理解)、RTE(文本推理)、ARC-Challenge(常识推理)
压缩后模型通过zero-shot测试验证,存储需求降低23.7%

Conclusion结论
LS-PRISM通过智能层选择策略突破传统均匀压缩的局限,在2.5B参数量级模型上验证了"压缩即增强"(Compression-as-Enhancement)的新范式,为边缘计算部署LLM提供可行方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号