一种用于变压器中非线性函数逼近的低复杂度且可重构的设计

《IEEE Transactions on Circuits and Systems II: Express Briefs》:A Low-Complexity and Reconfigurable Design for Nonlinear Function Approximation in Transformers

【字体: 时间:2025年11月27日 来源:IEEE Transactions on Circuits and Systems II: Express Briefs 4.9

编辑推荐:

  非线性函数近似在Transformer硬件加速器中的关键作用及低复杂度解决方案。针对softmax、GELU等组件的高成本问题,提出逐次近似技术与可重构架构,在ASIC和FPGA上分别提升吞吐量2.00倍和3.99倍,并优化SiLU误差。

  

摘要:

非线性函数逼近在基于变压器的硬件加速器的效率与精度方面起着关键作用。诸如softmax、GELU、SiLU和层归一化等功能需要较高的数值精度,这导致了显著的硬件复杂性。现有的方法通过函数集成来降低成本,但会带来面积开销——尤其是由于GELU逼近中的三次方预处理操作。本文提出了一种新颖的低复杂度连续逼近技术,该技术能够最小化预处理复杂性并补偿各阶段的误差。我们引入了一种可重构架构,以在统一的硬件设计中支持softmax、GELU、SiLU和平方根运算。在BERT-base模型上进行评估的结果表明,该方案在ASIC上实现了高达2.00×的面积归一化吞吐量提升(对于softmax),以及3.99×的提升(对于GELU);在FPGA上实现了1.52×的LUT归一化吞吐量提升,同时保持了模型精度。对于SiLU,我们的方法将逼近误差降低了27.2%,并将LLaMA3.2-1B的困惑度提高了0.56%,优于之前的最佳设计。

引言

基于变压器的模型[1]通过增强自注意力机制来捕捉依赖关系,在自然语言处理中已成为基础性技术。随着这些模型规模的扩大以满足日益增长的任务需求,硬件加速器越来越多地专注于资源密集型的线性组件(如多头注意力和全连接层),以及非线性组件(包括softmax、激活函数和层归一化)。为了降低硬件成本,还提出了量化模型[2]、[3]、[4]、[5]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号