MGIE-SVD：一种基于多维高斯信息熵驱动的SVD压缩方法，适用于变压器架构

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：MGIE-SVD: multidimensional Gaussian information entropy-driven SVD compression method for transformer architectures

【字体：大中小】 时间：2026年02月12日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　基于多维高斯信息熵的SVD模型压缩方法MGIE-SVD通过预处理消除激活尺度差异，利用熵值量化各层权重冗余，动态调整截断策略以平衡压缩率与性能，在LLaMA、OPT等6种不同规模Transformer模型上实现20%-80%压缩率下平均精度提升10%，兼容LoRA微调与低比特量化。

侯森宝|刘天元|王林媛|侯丽斌|严斌

中国信息工程大学成像与智能处理河南省重点实验室，郑州450001

摘要

大型语言模型（LLMs）由于参数庞大，给计算和存储带来了巨大负担。奇异值分解（SVD）作为一种主流的低秩压缩方法，已被广泛应用于Transformer权重矩阵的压缩。现有方法通常忽略了信息表示中不同层之间冗余度的功能差异和非均匀分布，导致压缩后关键层的表达能力下降，尤其是在高压缩率下，性能下降更为明显。为此，本文提出了一种基于多维高斯信息熵的SVD压缩方法（MGIE-SVD）。首先，设计了一种白化双流预处理方法来提取各层的权重激活函数并计算协方差矩阵。其次，对白化后的权重进行奇异值分解（SVD），并利用多维高斯熵来表征每层权重矩阵中奇异值的分布。第三，提出了一种基于熵的截断准则，以自适应地确定每层保留的奇异值数量。核心原则是根据测量的熵来调整截断程度：较高的熵会导致更激进的截断，而较低的熵则有助于更好地保留秩。大量实验表明，该方法在包括LLaMA、Mistral、Vicuna、OPT、DeepSeek和ViT在内的多种Transformer架构中表现出优越性，这些模型的参数规模从86M到70B不等。在20%到80%的压缩率范围内，MGIE-SVD在多种任务上的平均绝对准确率比SVD-LLM提高了10%。该方法完全兼容LoRA微调和低比特量化。

引言

近年来，大型语言模型（LLMs）在自然语言理解、文本生成和多模态推理方面取得了突破，这得益于它们出色的表示能力和高度泛化的任务性能。它们逐渐成为通用人工智能发展的关键支持技术。（Gao等人，2024年；Di等人，2025年）。诸如LLaMA（Touvron等人，2023年）、Vicuna（Chiang等人，2023年）、Mistral（Jiang等人）、OPT（Zhang等人，2022年）和DeepSeek（Puspitasari等人，2025年）等代表性模型在多个主流基准测试中表现出色，并已成为开源社区和学术界广泛采用的核心基础模型。这些模型的参数规模通常从数百万到数十亿不等，它们利用大规模预训练和深度神经网络架构来建模复杂模式（Yao等人，2024年）。然而，性能的提升伴随着计算资源、内存需求和部署成本的迅速增加，特别是在推理过程中对内存资源的依赖性很高，这严重限制了模型在资源匮乏环境中的可扩展性（Zhou等人，2024年）。为了解决上述挑战，模型压缩已成为提高LLMs部署效率的关键方法。研究人员提出了多种技术，包括剪枝、量化、蒸馏和低秩分解（Patil和Gudivada，2024年）。其中，基于奇异值分解（SVD）的低秩压缩方法由于其无需额外训练、具有通用结构且易于实现等优点，已成为Transformer压缩任务中的重要实现途径（Zhang等人，2024年）。

尽管奇异值分解（SVD）已被广泛用作大型模型压缩的主流低秩压缩机制，但现有方法在结构适应性和截断精度方面仍面临重大挑战。针对压缩率与性能保留之间的权衡，以往的研究提出了多种策略，如分层截断（Qi等人，2025年）、奇异值重要性排序（Li等人，2025年）和局部重构优化（Ding等人，2025年），以缓解传统SVD方法中的粗粒化和盲目截断问题。然而，这些方法大多依赖于外部指标，如任务性能反馈、启发式阈值或重构误差。它们缺乏统一的、基于模型结构的压缩准则，难以有效适应Transformer架构中不同层之间冗余度的异构分布。许多现有方法对所有层应用相同的压缩率，将不同层的参数视为对保持模型表示能力和性能同等重要（Kim等人，2025年）。这忽略了不同网络层在建模深度、上下文感知范围和语义功能上的差异，限制了压缩策略的层级分辨率和自适应调整能力。此外，大多数截断准则仍然基于低阶统计量，如奇异值幅度、矩阵范数或重构误差，这使得难以准确表征奇异值在结构表达中的实际信息贡献。特别是在高压缩率设置下，容易导致过度截断和性能下降（Ding等人，2023年），从而削弱了SVD方法在一般压缩场景中的稳定性和鲁棒性。

为了解决现有基于SVD的压缩方法的局限性——特别是它们忽略了层间冗余变化以及秩分配的结构一致性问题——我们提出了MGIE-SVD，这是一种基于多维高斯信息熵的压缩方法。该方法旨在提高Transformer模型在高压缩比下的结构适应性和表达能力。它利用信息熵作为原理指标来建模每层奇异值的复杂性和分散性，从而量化其冗余度和压缩敏感性。这一设计基于先前的研究，这些研究表明奇异值的分布反映了权重矩阵的结构复杂性和冗余度（Mary等人，2020年）。基于这种建模，我们建立了两个基于熵的截断准则：首先，截断比例根据估计的熵进行调整——较高的熵导致更激进的截断，而较低的熵则有助于更好地保留秩；其次，熵值在层间呈单调递增趋势，反映了表示冗余随深度的增加而逐渐增长。为了确保准确的熵估计，我们首先应用白化过程来消除权重矩阵中的激活幅度变化和维度间相关性。这一预处理步骤确保奇异值分布反映了内在结构而非统计噪声。然后，我们使用多维高斯熵度量来评估每层的规范化奇异谱，提供了一个紧凑且可比较的冗余度指标。最后，一个统一的截断函数将这些熵分数映射到所有层保留的秩上，实现了结构感知、连续且受预算限制的压缩。通过测量每个维度的信息密度，该方法根据每层的冗余度分配秩预算，实现了无需监督或任务特定调整的高效且结构感知的压缩。本文的贡献包括以下三个方面：

1.

我们提出了MGIE-SVD，这是一种基于熵的Transformer模型压缩方法，通过结合信息论原理增强了传统SVD的压缩能力。该方法首先设计了一种双流白化预处理机制，根据矩阵的正定性选择Cholesky分解或特征值分解。随后，对白化后的权重进行奇异值分解，并在多维高斯熵下估计标准化奇异值的熵。最后，提出了一种基于熵的截断准则，以实现自适应的模型压缩

2.

我们设计了基于熵的截断原则。首先是压缩原则，即较高的熵导致更激进的截断，而较低的熵则有助于更好地保留秩。其次是结构调度原则，即熵值在层间呈单调递增趋势，反映了表示冗余随深度的增加而逐渐增长

3.

MGIE-SVD的有效性和可扩展性在包括LLaMA、OPT、Vicuna、Mistral、DeepSeek和ViT在内的多种Transformer架构和参数规模上得到了验证，模型规模从86M到70B不等。在20%到80%的压缩率范围内，MGIE-SVD在多种任务上的平均绝对准确率比SVD-LLM提高了10%。该方法进一步兼容LoRA微调和低比特量化，展示了强大的通用性和可扩展性。

MGIE-SVD

本文提出了MGIE-SVD，这是一种基于多维高斯熵的Transformer架构压缩框架，如图1所示。它旨在解决大型模型压缩中的两个基本挑战：如何量化每层的表示冗余度，以及如何以结构感知的方式分配压缩强度。

为此，MGIE-SVD遵循三阶段设计。首先，它提取激活驱动的统计信息并应用双流预处理

实验与分析

为了全面验证所提出的基于多维高斯信息熵的SVD截断策略的有效性和优势，本文选择了六种代表性的低秩压缩方法作为比较基准，包括经典的原始SVD和近年来基于奇异值分解的几种先进方法：FWSVD（Hsu等人，2022年）、ASVD（Yuan等人，2023年）、TacoSVD（Liu等人，2024年）、AdaSVD（Li等人）和SVD-LLM。

结论

本文指出，现有的SVD压缩方法在截断策略上缺乏结构适应性，并且难以准确区分层间信息冗余的差异。本文提出了一种基于多维高斯信息熵的SVD截断方法（MGIE-SVD）。该方法基于每层的奇异值谱，通过白化和高斯建模估计信息熵，并构建映射

CRediT作者贡献声明

侯森宝：概念化、方法论、软件、可视化、初稿撰写、审稿与编辑。刘天元：概念化、形式分析、方法论。王林媛：方法论、项目管理、审稿与编辑。侯丽斌：撰写、审稿与编辑。严斌：概念化、资金获取、项目管理、监督、审稿与编辑。

资助

本工作得到了STI 2030-Major Projects 2022ZD0208500的支持，部分资金来自国家自然科学基金（项目编号：62106285）以及国家自然科学基金（项目编号：62271504）的支持。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作