基于敏感度误差最小化的非均匀量化方法SEMQ:实现大语言模型2比特超低精度压缩

【字体: 时间:2025年09月08日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  本文提出SEMQ(敏感度误差最小化非均匀量化)算法,通过迭代优化量化点分布(非均匀量化)和Z-score离群值隔离机制,实现LLM(大语言模型)2比特超低精度量化,在LLaMA系列模型上达成10×GPU内存压缩同时保持精度。该研究为资源受限场景部署超大规模模型提供新思路。

  

亮点

• 我们提出新型LLM非均匀量化算法,通过迭代优化量化点选择来降低误差

• 假设LLM权重呈钟形分布,创新性引入离群值检测隔离机制提升量化鲁棒性

• 在基准测试中稳定实现2比特精度,验证方法的泛化能力

方法

尽管LLM量化领域取得显著进展,超低位宽(如2比特)量化仍存在严峻挑战。如图2所示,这种极端压缩场景会放大量化误差。

本文重点优化LLM低位宽量化方法,具体通过:

  1. 1.

    基于模型敏感度的迭代误差最小化框架(SEMQ),动态调整非均匀量化区间

  2. 2.

    正态分布假设下的Z-score离群值筛除算法,降低后续量化复杂度

作者贡献声明

董敏李:论文撰写,算法实现

谢秀瑞:方法论设计,论文修订

张东阳:课题指导,经费支持

Athanasios V. Vasilakos:数据验证

梁文辉:实验分析

利益冲突声明

作者声明不存在可能影响本研究结果的利益冲突

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号