
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于敏感度误差最小化的非均匀量化方法SEMQ:实现大语言模型2比特超低精度压缩
【字体: 大 中 小 】 时间:2025年09月08日 来源:Future Generation Computer Systems 6.2
编辑推荐:
本文提出SEMQ(敏感度误差最小化非均匀量化)算法,通过迭代优化量化点分布(非均匀量化)和Z-score离群值隔离机制,实现LLM(大语言模型)2比特超低精度量化,在LLaMA系列模型上达成10×GPU内存压缩同时保持精度。该研究为资源受限场景部署超大规模模型提供新思路。
亮点
• 我们提出新型LLM非均匀量化算法,通过迭代优化量化点选择来降低误差
• 假设LLM权重呈钟形分布,创新性引入离群值检测隔离机制提升量化鲁棒性
• 在基准测试中稳定实现2比特精度,验证方法的泛化能力
方法
尽管LLM量化领域取得显著进展,超低位宽(如2比特)量化仍存在严峻挑战。如图2所示,这种极端压缩场景会放大量化误差。
本文重点优化LLM低位宽量化方法,具体通过:
基于模型敏感度的迭代误差最小化框架(SEMQ),动态调整非均匀量化区间
正态分布假设下的Z-score离群值筛除算法,降低后续量化复杂度
作者贡献声明
董敏李:论文撰写,算法实现
谢秀瑞:方法论设计,论文修订
张东阳:课题指导,经费支持
Athanasios V. Vasilakos:数据验证
梁文辉:实验分析
利益冲突声明
作者声明不存在可能影响本研究结果的利益冲突
生物通微信公众号
知名企业招聘