FP2:一种用于边缘人工智能推理和微调的2位浮点格式
《IEEE Transactions on Circuits and Systems I: Regular Papers》:FP2: A 2-bit Floating-Point Format for Edge-AI Inference and Fine-Tuning
【字体:
大
中
小
】
时间:2025年12月12日
来源:IEEE Transactions on Circuits and Systems I: Regular Papers 5.2
编辑推荐:
针对深度神经网络量化难题,提出4位编码双浮点格式fp2,通过两种架构(fp2-e1m0/fp2-e0m1)简化MAC运算,实验显示模型大小减少47%,精度损失<2%,在CIFAR-10接近FP32,LLAMA上优于2位GPTQ,硬件验证有效。
摘要:
随着深度神经网络(DNN)规模的不断扩大,2位量化对于缓解边缘设备上的内存瓶颈变得至关重要。低位宽度的浮点格式因其更宽的动态范围和无需进行量化步骤而成为固定点量化的有力替代方案。然而,构建少于3位的有效浮点表示仍然具有挑战性,因为传统格式至少需要一个符号位、一个指数位和一个尾数位。我们通过引入一种新的数据压缩方法来应对这一挑战,该方法使用4位编码空间来表示两个浮点值,从而实现了每值2位的有效存储密度。根据指数位和尾数位的位宽,我们提出了两种不同的2位浮点编码方式:fp2-e1m0和fp2-e0m1。基于fp2,我们设计了两种计算架构,将浮点乘累加(MAC)操作简化为位运算和逻辑运算,使得浮点计算量分别减少了2倍和4倍。因此,fp2为资源受限的边缘设备上的高效浮点运算提供了实用的解决方案。此外,我们从三个角度分析了fp2数据格式的误差特性。为了验证fp2格式的有效性,我们在ResNet18/50和ConvNeXt-Tiny模型上使用CIFAR-10和ImageNet-1K数据集进行了实验。与fp4相比,我们的方法将模型大小减少了47%,且准确度损失不到2个百分点。值得注意的是,在CIFAR-10数据集上,某些结果与fp32的结果非常接近。相比之下,在2位GPTQ评估中,fp2在LLAMA模型上表现出显著的优势。对于硬件评估,我们在RTL级别实现了我们的设计,并在FPGA和ASIC平台上进行了测试。与基于fp4的计算架构相比,我们的fp2处理单元(PE)的性能...
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号