基于正数的深度神经网络(DNN)训练中的双模舍入算法及硬件:混合精度框架的未来
《ACM Transactions on Embedded Computing Systems》:Dual-Mode Rounding Algorithms and Hardware for Posit-Based DNN Training: The Future of Mixed Precision Frameworks
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Embedded Computing Systems
编辑推荐:
本文提出基于Posit的混合精度训练框架PMP,采用Posit32、Posit16和Posit8分别处理核心运算、中间计算和推理阶段,通过创新算法实现32/16/8位之间的确定性和随机舍入转换,并设计高效硬件加速单元pMAC。实验表明PMP在ResNet、MobileNet等模型中速度提升达16.5倍,同时保持精度相近,硬件设计开销仅4.6%。
摘要
Posit数制为深度神经网络(DNN)训练提供了一种有前景的替代方案,它通过提供渐进式的精度和宽动态范围,解决了传统浮点数(FP)格式的关键局限性。尽管最近的研究已经证明了Posit数制在固定精度应用中的训练和推理优势,但由于缺乏用于在Posit数制之间转换的舍入算法,混合精度框架的开发受到了阻碍。这种依赖性限制了Posit数制在DNN工作流程中的实际应用。在本文中,我们提出了一个基于Posit数的混合精度训练和推理(PMP)框架,该框架针对不同的计算阶段使用了Posit32、Posit16和Posit8。Posit32确保了关键操作中的数值稳定性,Posit16在中间计算中平衡了精度和效率,而Posit8在推理过程中显著降低了内存使用量。具体来说,我们引入了将Posit32表示转换为Posit16和Posit8的算法,并且反之亦然,这两种转换都支持确定性和随机两种舍入模式。随机舍入用于减轻低精度算术中的精度损失。此外,我们设计了一种硬件高效的Posit乘法-累加(pMAC)单元,该单元集成了确定性和随机舍入模块,从而实现了高效的混合精度计算。我们在ResNet-18、ResNet-50、ResNet-152、MobileNet-v2、VGG-16和EfficientNet-B7(在ImageNet上训练)、YOLOv2(在PASCAL VOC 2012上训练)以及BERT(在WikiText-2上训练)上验证了我们的框架。实验结果表明,与固定精度的FP32训练相比,基于Posit16的PMP框架训练速度提高了1.5倍,基于Posit8的PMP框架训练速度提高了16.5倍,同时保持了相当或更高的准确性。此外,硬件测试表明,将所提出的确定性和随机舍入模块集成到pMAC单元中的设计开销估计仅为4.6%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号