基于正数的深度神经网络(DNN)训练中的双模舍入算法及硬件:混合精度框架的未来

《ACM Transactions on Embedded Computing Systems》:Dual-Mode Rounding Algorithms and Hardware for Posit-Based DNN Training: The Future of Mixed Precision Frameworks

【字体: 时间:2025年11月08日 来源:ACM Transactions on Embedded Computing Systems

编辑推荐:

  本文提出基于Posit的混合精度训练框架PMP,采用Posit32、Posit16和Posit8分别处理核心运算、中间计算和推理阶段,通过创新算法实现32/16/8位之间的确定性和随机舍入转换,并设计高效硬件加速单元pMAC。实验表明PMP在ResNet、MobileNet等模型中速度提升达16.5倍,同时保持精度相近,硬件设计开销仅4.6%。

  

摘要

Posit数制为深度神经网络(DNN)训练提供了一种有前景的替代方案,它通过提供渐进式的精度和宽动态范围,解决了传统浮点数(FP)格式的关键局限性。尽管最近的研究已经证明了Posit数制在固定精度应用中的训练和推理优势,但由于缺乏用于在Posit数制之间转换的舍入算法,混合精度框架的开发受到了阻碍。这种依赖性限制了Posit数制在DNN工作流程中的实际应用。在本文中,我们提出了一个基于Posit数的混合精度训练和推理(PMP)框架,该框架针对不同的计算阶段使用了Posit32、Posit16和Posit8。Posit32确保了关键操作中的数值稳定性,Posit16在中间计算中平衡了精度和效率,而Posit8在推理过程中显著降低了内存使用量。具体来说,我们引入了将Posit32表示转换为Posit16和Posit8的算法,并且反之亦然,这两种转换都支持确定性和随机两种舍入模式。随机舍入用于减轻低精度算术中的精度损失。此外,我们设计了一种硬件高效的Posit乘法-累加(pMAC)单元,该单元集成了确定性和随机舍入模块,从而实现了高效的混合精度计算。我们在ResNet-18、ResNet-50、ResNet-152、MobileNet-v2、VGG-16和EfficientNet-B7(在ImageNet上训练)、YOLOv2(在PASCAL VOC 2012上训练)以及BERT(在WikiText-2上训练)上验证了我们的框架。实验结果表明,与固定精度的FP32训练相比,基于Posit16的PMP框架训练速度提高了1.5倍,基于Posit8的PMP框架训练速度提高了16.5倍,同时保持了相当或更高的准确性。此外,硬件测试表明,将所提出的确定性和随机舍入模块集成到pMAC单元中的设计开销估计仅为4.6%。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号