
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于低秩逼近与稀疏化的层选择性剪枝方法LS-PRISM:高效大语言模型压缩新策略
【字体: 大 中 小 】 时间:2025年08月01日 来源:Neural Networks 6.3
编辑推荐:
本文提出LS-PRISM(Layer-Selective Pruning via low-Rank approxImation and Sparsification Method),通过动态低秩逼近(Dynamic Rank Selection)和结构化剪枝(unstructured pruning)实现大语言模型(LLMs)的层选择性压缩,在BoolQ/RTE等NLP基准测试中保持性能的同时,将2.5B参数模型压缩12%,为资源受限设备部署提供创新解决方案。
Highlight亮点
我们提出LS-PRISM方法,通过以下创新点推动LLM压缩领域发展:
• 首创层选择性压缩机制,动态识别关键矩阵进行低秩逼近(Low-Rank Approximation),通过动态秩选择(DRS)技术自适应确定压缩强度
• 首创将非结构化剪枝(Unstructured Pruning)与低秩逼近协同应用,在Gemma-2B等模型上实现12%参数削减
• 通过LoRA(Low-Rank Adaptation)微调有效恢复性能,在ARC-Challenge等基准测试中保持<1%准确率波动
Overview of the Proposed Method方法概述
LS-PRISM采用两阶段压缩流程:
阶段1:动态低秩逼近
智能筛选各层权重矩阵,基于对损失函数的影响动态分配秩(Rank)。采用"性能增益优先"策略,仅保留能提升模型表现的逼近操作。
阶段2:稀疏化增强
对未进行低秩处理的矩阵实施非结构化剪枝,结合交替方向乘子法(ADMM)优化稀疏模式,最终通过LoRA微调补偿精度损失。
Experimental Setup实验设计
测试平台:
• 模型:Gemma-2B/Phi-1.5/LLaMA3.2-1B
• 基准数据集:BoolQ(语言理解)、RTE(文本推理)、ARC-Challenge(常识推理)
压缩后模型通过zero-shot测试验证,存储需求降低23.7%
Conclusion结论
LS-PRISM通过智能层选择策略突破传统均匀压缩的局限,在2.5B参数量级模型上验证了"压缩即增强"(Compression-as-Enhancement)的新范式,为边缘计算部署LLM提供可行方案。
生物通微信公众号
知名企业招聘