面向多深度神经网络推理的数据流灵活加速器设计:从静态异构到动态可重构的能效优化

【字体: 时间:2025年09月20日 来源:Futures 3.8

编辑推荐:

  为解决异构深度神经网络(DNN)计算中固定数据流加速器(FDA)效率不足和异构数据流加速器(HDA)灵活性受限的问题,研究人员开展数据流灵活加速器设计研究。通过设计空间探索(DSE)工具筛选代表性操作模式,结合模式切换优化和硬件复用技术,实现在仅增加6.4%芯片面积下平均降低34.6%延迟,为多DNN推理提供高效能解决方案。

  

随着深度神经网络(DNN)在内容推荐[1]、人脸识别[2]和聊天机器人[3]等人工智能应用中的广泛部署,各类DNN模型呈现出显著差异化的计算特性[4-6]。为支持需要不同DNN的各种AI应用,开发能够高效计算多模型的新型加速器成为迫切需求。

传统固定数据流加速器(FDA)如Shi-diannao[7]采用单一数据流策略,虽在特定场景下能提升能效,但无法保证对不同类型层和模型的最优性能[8-10]。异构数据流加速器(HDA)[11]通过静态集成权重固定(weight-stationary)和输出固定(output-stationary)两种数据流,虽较FDA取得平均30%的延迟提升,但其静态分配机制导致数据流灵活性不足,且存在硬件资源利用率低的问题。随着DNN数据流日益多样化和异构化[10,12],HDA的静态结构可能导致次优性能。

针对这些挑战,研究人员提出了一种新型数据流灵活加速器设计。该设计通过静态搜索有限数量的代表性数据流(实现为操作模式)并支持动态切换,在提升灵活性的同时控制硬件开销。研究采用设计空间探索(DSE)工具Zigzag[12,20]评估候选操作模式的效率,确定最优模式数量和类型,并辅以两种优化技术:最小化数据流转换次数以降低切换开销,以及最大化硬件组件复用以减少芯片面积。

关键技术方法包括:使用Zigzag-v1[20]进行设计空间探索,结合CACTI7[24]内存能耗评估和Design Compiler[25]硬件面积评估;采用LOMA[29]算法进行时序映射搜索和启发式v2[12]方法进行空间映射搜索;针对边缘、移动和云三种加速器配置(阵列规模从32×32到128×128)进行优化;使用MLPerf[31]、AR/VR-A和AR/VR-B等多DNN工作负载验证。

  1. 2.

    背景

    DNN计算通常由多个乘加累积(MAC)计算循环组成,可通过并行执行加速。数据流决定循环排序和空间展开,影响缓冲器访问次数、并行度、数据重用等关键效率指标[13-15]。HDA[11]采用NVDLA风格(权重固定)和Shi-diannao风格(输出固定)两种数据流,虽提升效率但存在硬件利用不充分和灵活性受限问题。

  2. 3.

    设计

    3.1 概述

    研究工作流程包括三个阶段:通过排序保持目标模型高利用率的空间映射确定候选操作模式;通过评估所有候选模式组合选择最优模式;基于最终操作模式生成DNN加速器规范和最优调度信息。

3.2 寻找候选操作模式

通过算法1筛选低效数据流,识别候选操作模式。利用DSE工具评估每个目标模型层l∈T的可能空间映射的最大利用率,计算每个映射的利用率得分Sut[map],筛选前NC个得分对应的映射作为候选操作模式。

3.3 选择最优操作模式

通过算法2测试不同候选操作模式的所有组合(大小从2到NM)。计算每个组合的总延迟和总芯片面积,以延迟与面积的乘积作为最终得分选择最优设计。

3.4 最小化模式转换

算法3(OLatency)优化操作模式调度过程,通过调整连续层的模式分配减少转换次数。实验显示转换次数平均减少49.36%,显著降低切换开销。

3.5 最小化芯片面积

通过识别和最大化复用附加硬件组件减少芯片面积。如图3所示,AR/VR-A工作负载的三种选定操作模式显示重叠数据获取模式,通过复用行/列方向的重叠模式相关硬件组件优化面积。

  1. 5.

    评估

    5.2 操作模式选择

    如表3所示,不同工作负载和硬件配置下选择的最优操作模式存在显著差异。AR/VR-A和AR/VR-B工作负载在各硬件设置下选择相同操作模式,而包含GNMT编码器-解码器模型的MLPerf工作负载因计算特性不同选择完全不同模式。

5.3 延迟和能耗评估

如表4所示,新设计相比HDA平均降低34.6%延迟(仅增加0.04%能耗),相比NVDLA平均降低53.0%延迟和3.24%能耗。在包含更通用DNN的MLPerf工作负载上表现尤为突出,相比HDA和NVDLA分别降低38.8%和58.8%延迟。与MAERI相比,虽平均延迟增加3.70%,但能耗降低36.84%。

5.4 优化算法有效性

模式转换优化使转换次数平均减少49.36%;芯片面积优化使设计相比NVDLA增加22%芯片面积,相比HDA仅增加6.4%,且通过硬件复用,云设置下相对HDA的面积增幅降至2.9%。

5.5 设计空间探索

如图4所示,不同模式组合的延迟差异远大于面积差异。最佳组合比最慢组合在边缘、移动和云设置下分别快2.8×、7.2×和3.8×,而最大组合芯片面积仅比最小组合大10.3%、11.1%和7.7%。研究表明,达到5种数据流后延迟不再改善,说明过度拟合的数据流已被过滤算法排除。

研究结论表明,通过设计空间探索工具确定最优数据流组合,结合动态切换和硬件复用优化,新加速器设计在保持与可重构数据流加速器(RDA)相当延迟的同时,实现了接近HDA的能效水平。该研究为多DNN推理应用提供了灵活性、效率和硬件成本间的优化平衡方案,尤其适用于AR/VR和MLPerf等需要并发执行多种DNN的现实应用场景。研究成果对下一代AI加速器设计具有重要指导意义,为应对日益多样化的DNN计算需求提供了有效解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号