一种基于77.35 TOPS/W性能的变压器处理器,该处理器在注意力计算过程中利用了多尺度相似性(Multi-Scale Similarity)机制
《IEEE Journal of Solid-State Circuits》:A 77.35 TOPS/W Transformer Processor Exploiting Multi-Scope Similarity in Attention Computing
【字体:
大
中
小
】
时间:2025年12月11日
来源:IEEE Journal of Solid-State Circuits 5.6
编辑推荐:
该处理器通过主成分优先推测提前终止全局注意力计算,动态跟踪汇聚相似向量并行计算,并采用位 stationary单元优化位转换路径,在28nm CMOS下实现77.35 TOPS/W能效,较SOTA方案节能3.69倍,速度提升4.13倍。
摘要:
基于Transformer的模型在多个人工智能(AI)领域取得了显著的成功。它们的卓越性能得益于全局注意力机制,该机制能够计算任意两个输入符号之间的相关性,从而形成一个全局范围的“感受野”。通常,基于Transformer的模型的输入内容较为相似,这是由于人类语言或图像中存在自然冗余性。相似的输入内容在全局注意力计算过程中会产生相似的向量,这些向量包含大量相同或相似的运算元素。这种相似性导致了向量层面的冗余、元素层面的重复以及全局注意力计算中的低效位运算。本文提出了一种能效更高的Transformer处理器,该处理器利用了全局注意力计算中的动态相似性来提升性能。首先,通过主成分分析来预测矩阵乘法(MM)过程中每个输出像素的量化范围,从而提前终止计算,避免了向量层面的冗余。其次,一个相似向量跟踪计算引擎动态地跟踪并收集相似向量以进行并行计算,通过重用重复运算元素的乘法结果来减少元素层面的计算量。第三,一个位静态处理单元(BSPE)重新安排计算顺序,以最小化相似运算元素之间的部分积(PP)转换次数,从而降低位逻辑转换所需的能量。该处理器采用28纳米CMOS工艺制造,面积为6.4平方毫米。在Vision Transformer Base(ViT-B)模型上进行ImageNet分类任务时,其峰值能效达到了77.35 TOPS/W。与现有的最先进Transformer处理器相比,该处理器降低了3.69倍的能耗,并提升了4.13倍的运算速度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号