全CMOS兼容3晶体管嵌入式NOR闪存实现28纳秒长时程增强/抑制,助力高速在线训练加速器

【字体: 时间:2025年08月20日 来源:Advanced Intelligent Systems 6.1

编辑推荐:

  这篇研究首次在28纳米全耗尽绝缘体上硅(FD-SOI)平台上展示了全互补金属氧化物半导体(CMOS)工艺兼容的新型三晶体管(3-T)嵌入式NOR闪存。通过引入NMOS/PMOS对耦合晶体管实现的带间热空穴(BBHH)和沟道热电子(CHE)注入机制,该存储器实现了创纪录的28纳秒长时程增强(LTP)和抑制(LTD)速度,为神经形态硬件中的在线训练提供了高速、高可靠的突触行为。器件在107次编程/擦除(P/E)循环后仅出现1.36%的存储窗口退化和4.7%的亚阈值摆幅退化,其近零非线性特性在MNIST数据集上实现了92%的高分类准确率。特别值得注意的是,该器件对100万张MNIST图像仅需2.68秒的训练延迟,展现出在高性能训练加速器中的应用潜力。

  

神经形态硬件因其低功耗和高速并行向量矩阵乘法(VMM)特性在神经网络(NN)应用中备受关注。要实现高精度神经形态硬件,必须引入基于反向传播的在线训练,这就需要具有线性快速权重更新特性的器件。虽然阻变存储器(RRAM)和铟镓锌氧化物(IGZO)忆阻器等非易失性存储器(NVM)已被提出用于权重调制,但其较差的CMOS兼容性和可扩展性限制了在CMOS平台上的集成。嵌入式闪存(eFlash)和铁电场效应晶体管(FeFET)虽具有CMOS工艺兼容性,但分栅和双多晶结构难以用于50纳米以下节点,而FeFET需要额外掩模且域数量有限,不适合模拟权重实现。

针对这些挑战,研究团队在28纳米全耗尽绝缘体上硅(FD-SOI)平台上开发了全CMOS兼容的新型三晶体管(3-T)嵌入式NOR闪存。该存储器采用NMOS/PMOS对作为耦合晶体管,多晶硅栅极有效充当浮栅,通过沟道热电子(CHE)和带间热空穴(BBHH)注入机制,实现了创纪录的28纳秒长时程增强(LTP)和抑制(LTD)操作。这种配置使得该存储器具有以下显著优势:

器件特性方面,该3-T嵌入式NOR闪存采用标准28纳米FD-SOI工艺制造,所有晶体管均使用厚栅氧输入/输出(I/O)单元,确保完全CMOS兼容性。测量结果显示,其浮栅操作成功实现了0.7V的存储窗口(MW),使用100纳秒的CHE编程和BBHH擦除脉冲,比基于Fowler-Nordheim(FN)隧穿的P/E操作快约103倍。器件具有与标准NMOS I/O器件相同的漏电流水平和增加的亚阈值摆幅(SSavg)值,展示了有效的耦合操作和CMOS兼容性。与传统3-T eFlash相比,该设计可以使用更小且尺寸相同的晶体管,实现了1.78μm2的紧凑单元尺寸,在0.6V栅极电压下具有大于106的开/关电流比。

可靠性测试表明,该存储器在107次P/E循环后仅出现1.36%的存储窗口退化和4.7%的亚阈值摆幅退化,展现出优异的耐久性。数据保持特性方面,得益于标准I/O器件的厚栅氧,10年后仅出现4.6%的存储窗口退化。这种快速且高度可靠的P/E行为对需要频繁突触权重更新的在线训练特别有利。

在神经形态硬件应用方面,该3-T eFlash单元可配置为NOR型阵列,所有字线(WL)可同时激活,在单个读取周期内实现并行VMM操作。测量结果显示,仅需28纳秒的相同LTP脉冲和28纳秒的增量步长LTD脉冲即可实现突触权重更新,比硅基FeFET的铁电开关快约2.78倍,比传统3-T嵌入式NAND闪存快约358倍。该器件实现了约22的开/关电导比,LTP和LTD的非线性度分别为-0.9和-0.1,具有超过40个电导权重水平。

性能评估采用NeuroSim V 3.0框架进行,使用包含400×100×10全连接层的多层感知器(MLP)对MNIST图像分类进行评估。得益于较低的非线性度,该3-T eFlash实现了92%的分类准确率,优于FeFET的87%。更重要的是,其对100万张MNIST图像仅需2.68秒的训练延迟,远低于FeFET的5.15秒和传统3-T嵌入式NAND闪存的949秒。虽然训练能耗相对较高,但通过将晶体管宽度从0.9μm缩小到0.144μm,CHE LTP功率可有效降低至10.8pJ/更新,使整体训练能耗降低39%。

与最先进的突触器件相比,该3-T eFlash展现出最快的LTP/LTD速度、最低的非线性度和最低的训练功率延迟积(PDP),同时保持完全的CMOS兼容性。尽管三维AND闪存等器件可实现高位密度,但其基于FN隧穿的慢速LTP/LTD行为和高非线性度导致精度低且训练延迟大幅增加,不适合在线训练加速器。电化学RAM(ECRAM)和相变RAM(PCRAM)虽具有低非线性和快速LTP/LTD速度,但电导比(Gmax/Gmin)不足,严重影响了权重更新和分类准确率。

这项研究提出的全CMOS兼容3-T嵌入式NOR闪存展现了在107次P/E循环后极低的退化、近零非线性度以及28纳秒LTP/LTD操作的高速低功耗突触行为。其对100万MNIST图像仅需2.78秒的训练延迟和92%的准确率,证实了该器件作为在线训练神经形态硬件高性能解决方案的潜力。未来通过采用14纳米等先进工艺节点,可进一步提高热载流子注入效率并降低突触更新能耗,同时显著提升驱动电路的性能和能效。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号