面向高效数据流灵活加速器的深度神经网络最优数据流寻优研究

【字体: 时间:2025年09月20日 来源:Future Foods 8.2

编辑推荐:

  本文针对异构数据流加速器(HDA)在处理多深度神经网络(DNN)模型时的局限性,提出了一种新型数据流灵活加速器设计。该设计通过固定一组代表性数据流作为操作模式并动态切换,结合设计空间探索(DSE)工具评估候选数据流效率,采用模式转换优化和硬件组件复用技术,最终实现较HDA平均降低34.6%延迟,仅增加6.4%面积和可忽略能耗开销的优异性能。

  

随着深度神经网络(DNN)在内容推荐[1]、人脸识别[2]和聊天机器人[3]等人工智能应用中的广泛部署,各种DNN模型展现出截然不同的计算特性[4-6]。为支持需要不同DNN的各种AI应用,开发能够高效计算多模型的新型加速器变得至关重要。

传统固定数据流加速器(FDA)如Shi-diannao[7]通过专精特定数据流(如输出静态)在能效和尺寸上优于GPU等通用处理器,但单一数据流无法保证对不同类型层和模型的最佳性能[8-10]。硬件变量(PE数量、缓存大小、内存带宽)和软件变量(输入、权重、输出形状)共同决定了特定数据流的效率,而DNN各层类型和尺寸的变化导致FDA效率波动明显。

异构数据流加速器(HDA)[11]通过静态容纳权重静态和输出静态两种数据流,采用两个子加速器结构,相比现有FDA平均降低30%延迟。然而HDA的静态子加速器分配限制了其数据流灵活性,难以应对当今DNN模型日益多样化和异构化的数据流需求[10,12]。其静态不灵活结构可能导致次优性能,且硬件资源分区常出现闲置浪费问题[11]。

针对这些挑战,研究人员开发了一种新型数据流灵活加速器设计。该设计通过静态搜索有限数量的代表性数据流(实现为操作模式)并动态切换,将问题转化为寻找最少操作模式数量以实现最高数据流灵活性的优化问题。研究采用先进的设计空间探索工具评估候选操作模式效率,确定最优操作模式数量和类型,同时应用两种辅助优化技术:最大化支持不同操作模式的硬件组件复用率,以及最小化引发高开销的模式转换次数。

关键技术方法包括:使用Zigzag-v1[20]设计空间探索工具进行数据流映射评估;采用CACTI7[24]45nm技术库估算内存访问能耗和内存单元面积;通过Design Compiler[25]评估硬件组件面积;运用LOMA[29]算法进行时间映射搜索和启发式v2[12]方法进行空间映射搜索。实验采用与HDA研究相同的硬件设置(边缘、移动和云三类加速器配置)和工作负载(AR/VR-A、AR/VR-B和MLPerf多DNN工作负载),所有工作负载均量化为8位精度。

研究结果方面:

操作模式选择结果显示,针对AR/VR-A和AR/VR-B工作负载,不同硬件设置下选择的操作模式完全相同;而包含编码器-解码器模型GNMT的MLPerf工作负载则选择了完全不同的操作模式,表明设计能适应不同类型的模型特性。

延迟和能耗评估表明,新设计相比HDA平均降低34.6%延迟,仅增加0.04%能耗开销;相比NVDLA降低53.0%延迟和3.24%能耗。特别是在包含更通用DNN的MLPerf工作负载上表现优异,相比HDA和NVDLA分别实现38.8%和58.8%的延迟降低,证明该设计能高效处理多样化模型类型。

优化算法有效性验证显示,模式转换最小化技术使转换计数比基线方法平均减少49.36%;芯片面积最小化方面,新设计相比NVDLA芯片面积增加22%,比HDA增加6.4%,但通过最大化多路复用器和加法器等硬件组件的重用,在云设置中仅增加2.9%的芯片尺寸,证明了优化策略的有效性。

设计空间探索分析揭示了几个重要发现:不同组合间的延迟差异远大于面积差异;大多数候选模式组合表现出与MAERI相当的性能(在边缘、移动和云设置中分别有81%、92%和61%的组合显示低于10%的开销);延迟在5种数据流时达到最优,更多数据流不会带来额外增益,表明过度拟合的数据流已被有效过滤。

研究结论表明,这种新型加速器设计方法通过智能选择有限但高效的数据流操作模式,并配以精细的硬件优化策略,成功实现了数据流灵活性与硬件效率的平衡。相比具有最大数据流灵活性的RDA,该方法在性能上具有可比性(仅慢3.7%),同时能效与HDA相当,而芯片面积远小于传统可重构数据流加速器(比MAERI减少约90%面积)。这种设计范式为多DNN推理应用提供了一种实用的加速解决方案,特别适合资源受限的边缘计算设备和能效敏感的移动应用场景。

该研究的创新点在于将数据流灵活性从理论上的无限可能转化为工程上的有限最优,通过系统化的设计空间探索和优化技术,解决了支持多数据流带来的硬件开销问题。未来工作可进一步探索支持多PE阵列和原子数据流的扩展方案,以及引入支持不同操作模式集的异构PE设计,进一步提升加速器的适应性和效率。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号