张量操作单元(TMU):一种可重构的、靠近内存的张量处理单元,专为高吞吐量的人工智能系统级芯片(SoC)设计

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:Tensor Manipulation Unit (TMU): Reconfigurable, Near-Memory Tensor Manipulation for High-Throughput AI SoC

【字体: 时间:2025年11月27日 来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐:

  本文提出一种可重构近内存硬件模块TMU,用于高效执行张量数据移动密集型操作。通过集成TMU与TPU,结合双缓冲和输出转发机制,在SMIC 40nm工艺下实现0.019mm2面积,支持超过10种张量变换操作。实验表明,TMU相比ARM A72和NVIDIA Jetson TX2在特定任务上分别提升82.42倍和11.06倍性能,与自研TPU协同使用可降低22.89%端到端推理延迟。

  

摘要:

尽管最近在AI系统芯片(SoC)设计方面的进展主要集中在加速张量计算上,但同样关键的张量操作(TM)任务——即以最小计算量实现大量数据传输——仍然没有得到充分研究。本文通过引入TM单元(TMU)来填补这一空白:TMU是一种可重构的、靠近内存的硬件模块,专为高效执行数据传输密集型(DMI)操作而设计。TMU采用基于RISC的执行模型和统一的寻址抽象机制,以内存到内存的方式处理长数据流,从而支持多种粗粒度和细粒度的张量变换。所提出的架构将TMU与TPU集成到高吞吐量的AI系统芯片(SoC)中,利用双缓冲和输出转发技术提高流水线利用率。TMU采用SMIC 40纳米标准单元库进行设计,占用面积仅为0.019平方毫米,同时支持超过10种常见的DMI操作。基准测试表明,TMU单独使用时,与ARM A72和NVIDIA Jetson TX2相比,分别可实现高达82.42倍和11.06倍的运算级延迟降低。当与自家的TPU集成后,整个系统的端到端推理延迟降低了22.89%,这证明了TMU架构在降低推理延迟方面的有效性及其在多种张量操作中的可扩展性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号