面向多深度神经网络推理的数据流灵活型加速器设计与优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月20日 来源：Futures 3.8

编辑推荐：

　　本文编辑推荐：为解决异构数据流加速器(HDA)在处理多深度神经网络(DNN)模型时存在的数据流灵活性不足和硬件资源利用率低的问题，研究人员开展了一种新型数据流灵活型加速器设计研究。通过采用设计空间探索(DSE)工具筛选代表性数据流作为操作模式、动态切换机制及硬件资源共享优化，实现在仅增加6.4%芯片面积和可忽略能耗开销的前提下，平均延迟降低34.6%。该研究为AI加速器架构设计提供了重要的优化范式。

随着深度神经网络(DNN)在内容推荐、人脸识别和聊天机器人等人工智能应用中的广泛部署，各类DNN模型呈现出显著差异化的计算特性。然而，传统固定数据流加速器(FDA)采用单一数据流策略，无法适应不同层级和模型的多样化计算需求，导致硬件资源利用效率低下。异构数据流加速器(HDA)虽通过静态集成多种数据流有所改进，但其刚性架构仍存在数据流灵活性受限和硬件资源闲置等问题。

为突破现有加速器架构的局限性，研究团队开发了一种创新数据流灵活型加速器设计。该设计通过静态筛选有限数量的代表性数据流作为操作模式(operating modes)，并实现动态切换机制，显著提升了多DNN推理任务的适应能力。研究采用设计空间探索(DSE)工具Zigzag对候选数据流进行效能评估，结合模式转换优化和硬件组件复用技术，最终在延迟、能耗和芯片面积间取得最佳平衡。

关键技术方法包括：1）利用Zigzag框架进行空间映射评估和效能预测；2）采用LOMA算法进行时序映射搜索；3）基于启发式v2方法的空间映射优化；4）应用CACTI7和Design Compiler进行能耗与面积评估；5）支持8位整型精度的PE阵列设计。实验使用MLPerf和AR/VR等多DNN工作负载，在边缘计算、移动设备和云端三种硬件设置下进行验证。

研究结果：

2.1 DNN与数据流特性

研究阐明了DNN计算中7维循环空间的特征，揭示数据流通过循环排序和空间展开决定加速器效能的关键机制。数据显示不同的时空映射策略直接影响缓冲器访问次数、并行度和数据复用效率。

2.2 异构数据流加速器局限

分析表明HDA采用NVDLA风格(权重固定)和Shi-diannao风格(输出固定)两种数据流，虽比FDA提升30%延迟，但静态分配机制导致：1）数据流多样性不足；2）子加速器闲置问题；3）扩展性受限。

2.3 设计空间探索价值

通过Zigzag工具实现了架构-映射对的成本评估，其能耗预估误差<5%，相比Timeloop和Accelergy工具能发现能效提升64%的映射方案。

3.1 整体设计框架

提出三阶段优化流程：1）基于利用率筛选候选操作模式；2）评估模式组合的延迟-面积权衡；3）生成加速器规格和调度信息。创新性引入模式转换开销优化算法(OLatency)。

3.2 候选模式发现

通过算法1实现拓扑过滤，选择在目标模型中保持高利用率的空间映射。以利用率得分S_ut[map]为指标，筛选前NC个映射作为候选模式。

3.3 最优模式选择

采用算法2评估2-NM种模式组合，通过延迟面积乘积最小化准则确定最优配置。实验显示AR/VR与MLPerf工作负载分别需要3-4种操作模式。

3.4 模式转换优化

算法3成功将模式转换次数降低49.36%，通过相邻层模式一致性检查和转换开销评估，显著减少动态重构带来的性能损耗。

3.5 芯片面积最小化

通过识别硬件组件冗余（如行列多路复用器和加法树），实现跨模式硬件共享。在移动设备设置下，支持三种操作模式的加速器仅比HDA增加6.4%芯片面积。

实验验证采用与HDA研究相同的硬件设置（边缘：32×32 PE/4MiB；移动：64×64 PE/8MiB；云端：128×128 PE/16MiB）和工作负载（AR/VR-A/B和MLPerf）。结果显示：相比HDA平均延迟降低34.6%，能耗基本持平(+0.04%)；相比NVDLA延迟降低53.0%，能耗降低3.24%；相比MAERI(RDA)延迟略高3.7%，但能耗降低36.84%。面积评估表明：相比NVDLA增加22%芯片面积，但相比MAERI减少约90%面积开销。

研究结论表明，这种数据流灵活型加速器设计成功解决了多DNN推理中的适应性难题。通过有限操作模式的动态切换机制，在保持接近可重构数据流加速器(RDA)性能的同时，显著降低了硬件开销。该研究为边缘计算到云端服务的AI加速器设计提供了重要的架构优化方向，特别是在处理异构DNN工作负载方面展现出显著优势。未来研究可进一步探索多PE阵列扩展和稀疏神经网络加速的应用前景。

论文发表于《Futures》期刊，由Hyunjun Kim、Whoi Ree Ha、Yongseok Lee等学者共同完成，为AI硬件架构领域提供了创新性的设计方法论和优化思路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号