一种用于内存增强型神经网络加速的40纳米训练-推理STT-MRAM近内存计算模块
《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:A 40-nm Training-Inference STT-MRAM Near-Memory Computing Macro for Memory-Augmented Neural Network Acceleration
【字体:
大
中
小
】
时间:2025年12月31日
来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1
编辑推荐:
少样本学习依赖STT-MRAM近存计算架构,通过并行计算加速L1距离计算、MIC/STW方案降低能耗、DOC-SA与HTSC提升读性能,在八类五样本和十六类五样本任务中分别达到96.37%和93.72%准确率,能效达6.47 TOPS/W。
摘要:
近年来,记忆增强型神经网络(MANNs)作为少样本学习(FSL)的关键解决方案受到了广泛关注。这些网络利用外部记忆来存储先验知识,从而提高分类效率。自旋转移扭矩磁随机存取存储器(STT-MRAM)因其紧凑的单元尺寸、出色的数据保留能力和可扩展性而特别适合这一应用。在本文中,我们介绍了一种专为MANNs设计的基于STT-MRAM的近内存计算(NMC)宏架构。我们的方法包含了几项关键创新,旨在克服硬件实现中的挑战并提升MANN的性能,具体如下:1)NMC内部采用并行计算架构,以加速L1距离计算;2)采用记忆反转编码(MIC)和自终止写入(STW)技术,减少写入操作和能耗,解决MANNs训练阶段频繁写入和高写入电流的问题;3)动态偏移补偿感测放大器(DOC-SA)和高吞吐量开关电容(HTSC)读出技术,提高读出准确性和吞吐量,解决读出裕度低和读出带宽受限的问题;4)通过探索MANN架构验证了NMC宏的可重用性。基于优化匹配网络(MCHnets)的结构在五路和八路Omniglot分类任务中的准确率超过了90%。我们的设计采用40纳米CMOS工艺制造,在Omniglot数据集上,使用优化的MCHnet进行八路五样本任务的分类准确率为96.37%,16路五样本任务的准确率为93.72%,在MANN的分类任务中实现了每瓦6.47 TOPS的卓越能效。
引言
近年来,少样本学习(FSL)作为一种使模型能够仅从少量可用示例中进行泛化的有前景的方法而受到广泛关注。与依赖大规模数据集进行训练的传统深度学习方法不同,FSL旨在解决数据稀缺问题,这在数据采集成本高昂、耗时或涉及隐私敏感性的场景中尤为突出[1]、[2]。这种学习范式在医学成像和诊断、面部识别以及机器人技术等实际应用中尤其有价值,在这些应用中,快速适应新任务且监督有限是非常重要的[3]。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号