ACE-of-SPADEs:加速空间稀疏卷积以实现3D场景理解

《ACM Transactions on Embedded Computing Systems》:ACE-of-SPADEs: Accelerating Spatially Sparse Convolution for 3D Scene Understanding

【字体: 时间:2025年11月08日 来源:ACM Transactions on Embedded Computing Systems

编辑推荐:

  3D场景语义理解是机器人、自动驾驶等领域的核心技术,现有基于点云的3D CNN存在计算效率低的问题。本文提出AoS系统与Ss)pnn硬件加速器,通过空间局部性优化数据重用和动态计算分组,在10nm工艺下实现0.31mm2的硬件面积,较CPU/GPU加速方案分别提升19.9x/2.2x速度和49.9x/7.1x能效。

  

摘要

对3D场景的语义理解是许多应用(如机器人技术、自动驾驶、AR/VR)的基础。目前用于不同3D场景理解任务的先进方法采用在点云上运行的3D卷积神经网络(CNN)。在点云等空间稀疏数据上进行卷积操作时,数据访问和计算模式不规则,导致CPU/GPU实现中的资源利用率和能效较低。现有的针对权重/激活值稀疏性设计的CNN加速器无法高效地重新用于处理3D空间稀疏数据,因为它们在非零操作数的定位方式和工作调度粒度上存在根本性差异。为了解决由空间稀疏性引起的数据流问题,并满足空间稀疏卷积所需的专用微架构需求,我们提出了Ace-of-Spade(AoS)——一个算法-数据流-架构协同设计的系统。AoS通过使用基于位置感知的元数据结构以及考虑表面方向的点云重排序算法,实现了空间相邻点之间的数据重用。它采用了一种新颖技术,通过建模点云中的稀疏性变化来选择最优的数据块,且延迟开销接近于零。为了加速空间稀疏数据的计算,我们设计了一种新型硬件加速器Sspnna,其前端可将每个点的操作数量转换为密集的工作调度流,传递给后端计算引擎。计算引擎通过动态的系统级分组和多播互连进一步实现了权重和输入特征数据的重用。Sspnna核心加上64 KB的L1缓存,在10nm工艺制程下、1 GHz频率下仅占用0.31平方毫米的面积。总体而言,与现有的CPU和GPU实现相比,AoS分别实现了19.9倍、49.9倍的速度提升和49.9倍、7.1倍的能效节省。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号