面向多深度神经网络推理的数据流灵活型加速器设计与优化研究

【字体: 时间:2025年09月20日 来源:Futures 3.8

编辑推荐:

  本文编辑推荐:为解决异构数据流加速器(HDA)在处理多深度神经网络(DNN)模型时存在的数据流灵活性不足和硬件资源利用率低的问题,研究人员开展了一种新型数据流灵活型加速器设计研究。通过采用设计空间探索(DSE)工具筛选代表性数据流作为操作模式、动态切换机制及硬件资源共享优化,实现在仅增加6.4%芯片面积和可忽略能耗开销的前提下,平均延迟降低34.6%。该研究为AI加速器架构设计提供了重要的优化范式。

  

随着深度神经网络(DNN)在内容推荐、人脸识别和聊天机器人等人工智能应用中的广泛部署,各类DNN模型呈现出显著差异化的计算特性。然而,传统固定数据流加速器(FDA)采用单一数据流策略,无法适应不同层级和模型的多样化计算需求,导致硬件资源利用效率低下。异构数据流加速器(HDA)虽通过静态集成多种数据流有所改进,但其刚性架构仍存在数据流灵活性受限和硬件资源闲置等问题。

为突破现有加速器架构的局限性,研究团队开发了一种创新数据流灵活型加速器设计。该设计通过静态筛选有限数量的代表性数据流作为操作模式(operating modes),并实现动态切换机制,显著提升了多DNN推理任务的适应能力。研究采用设计空间探索(DSE)工具Zigzag对候选数据流进行效能评估,结合模式转换优化和硬件组件复用技术,最终在延迟、能耗和芯片面积间取得最佳平衡。

关键技术方法包括:1)利用Zigzag框架进行空间映射评估和效能预测;2)采用LOMA算法进行时序映射搜索;3)基于启发式v2方法的空间映射优化;4)应用CACTI7和Design Compiler进行能耗与面积评估;5)支持8位整型精度的PE阵列设计。实验使用MLPerf和AR/VR等多DNN工作负载,在边缘计算、移动设备和云端三种硬件设置下进行验证。

研究结果:

2.1 DNN与数据流特性

研究阐明了DNN计算中7维循环空间的特征,揭示数据流通过循环排序和空间展开决定加速器效能的关键机制。数据显示不同的时空映射策略直接影响缓冲器访问次数、并行度和数据复用效率。

2.2 异构数据流加速器局限

分析表明HDA采用NVDLA风格(权重固定)和Shi-diannao风格(输出固定)两种数据流,虽比FDA提升30%延迟,但静态分配机制导致:1)数据流多样性不足;2)子加速器闲置问题;3)扩展性受限。

2.3 设计空间探索价值

通过Zigzag工具实现了架构-映射对的成本评估,其能耗预估误差<5%,相比Timeloop和Accelergy工具能发现能效提升64%的映射方案。

3.1 整体设计框架

提出三阶段优化流程:1)基于利用率筛选候选操作模式;2)评估模式组合的延迟-面积权衡;3)生成加速器规格和调度信息。创新性引入模式转换开销优化算法(OLatency)。

3.2 候选模式发现

通过算法1实现拓扑过滤,选择在目标模型中保持高利用率的空间映射。以利用率得分Sut[map]为指标,筛选前NC个映射作为候选模式。

3.3 最优模式选择

采用算法2评估2-NM种模式组合,通过延迟面积乘积最小化准则确定最优配置。实验显示AR/VR与MLPerf工作负载分别需要3-4种操作模式。

3.4 模式转换优化

算法3成功将模式转换次数降低49.36%,通过相邻层模式一致性检查和转换开销评估,显著减少动态重构带来的性能损耗。

3.5 芯片面积最小化

通过识别硬件组件冗余(如行列多路复用器和加法树),实现跨模式硬件共享。在移动设备设置下,支持三种操作模式的加速器仅比HDA增加6.4%芯片面积。

实验验证采用与HDA研究相同的硬件设置(边缘:32×32 PE/4MiB;移动:64×64 PE/8MiB;云端:128×128 PE/16MiB)和工作负载(AR/VR-A/B和MLPerf)。结果显示:相比HDA平均延迟降低34.6%,能耗基本持平(+0.04%);相比NVDLA延迟降低53.0%,能耗降低3.24%;相比MAERI(RDA)延迟略高3.7%,但能耗降低36.84%。面积评估表明:相比NVDLA增加22%芯片面积,但相比MAERI减少约90%面积开销。

研究结论表明,这种数据流灵活型加速器设计成功解决了多DNN推理中的适应性难题。通过有限操作模式的动态切换机制,在保持接近可重构数据流加速器(RDA)性能的同时,显著降低了硬件开销。该研究为边缘计算到云端服务的AI加速器设计提供了重要的架构优化方向,特别是在处理异构DNN工作负载方面展现出显著优势。未来研究可进一步探索多PE阵列扩展和稀疏神经网络加速的应用前景。

论文发表于《Futures》期刊,由Hyunjun Kim、Whoi Ree Ha、Yongseok Lee等学者共同完成,为AI硬件架构领域提供了创新性的设计方法论和优化思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号