将2T0C DRAM和1T1R RRAM进行单片3D集成,以加速变压器网络中的动态/静态矩阵计算

《IEEE Transactions on Electron Devices》:Monolithic 3-D Integration of 2T0C DRAM and 1T1R RRAM for Accelerating Dynamic/Static Matrix Computation in Transformer Network

【字体: 时间:2025年12月12日 来源:IEEE Transactions on Electron Devices 3.2

编辑推荐:

  通过40nm CMOS工艺实现三维集成,将2T0C DRAM阵列与1T1R RRAM阵列结合,设计出面向Transformer网络的在忆存储算器(IMC)加速器。采用CP分解将动态矩阵乘法分解为多向量乘法和矩阵求和,通过忆阻器的高并行架构降低硬件开销。研发出热稳定性优异的In-Al-Zn氧化物晶体管(90mV阈值电压漂移,400℃热应力下稳定),集成IMC模块与外围电路后,加速器实现53.9 GOPS吞吐量,较CPU提升18倍速度,能效达12.8 TOPS/W。

  

摘要:

我们首次通过实验验证了在40纳米CMOS工艺上,将基于氧化物半导体的2T0C动态随机存取存储器(DRAM)阵列与1 Mb 1T1R电阻式开关随机存取存储器(RRAM)阵列进行单片三维(M3D)集成,以实现变压器网络的内存计算(IMC)。首先,为了解决动态矩阵乘法(DMM)加速的问题,我们利用规范多项式(CP)分解将DMM分解为多向量乘法和矩阵求和运算,并通过多端2T0C IMC阵列加速这些计算,从而实现高并行性和降低硬件开销。专门为M3D集成开发的高热稳定性In-Al-Zn氧化物(IAZO)晶体管器件在400°C的热应力下仍能保持90 mV的阈值电压变化。其次,利用40纳米1T1R RRAM IMC阵列高效执行矩阵-向量乘法(MVM)运算。最后,2T0C DRAM、1T1R RRAM及外围电路通过直接的后端线(BEOL)互连集成到M3D IMC加速器中,以加速线性变压器(LT)算法中的DMM和MVM运算。这种新型IMC与M3D方案的协同作用使得吞吐量达到53.9 GOPS,相比基于CPU的系统速度提升了18倍,并且具有较高的能效(12.8 TOPS/W)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号