
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向多深度神经网络推理的数据流灵活型加速器设计与优化研究
【字体: 大 中 小 】 时间:2025年09月20日 来源:Futures 3.8
编辑推荐:
本文编辑推荐:为解决异构数据流加速器(HDA)在处理多深度神经网络(DNN)模型时存在的数据流灵活性不足和硬件资源利用率低的问题,研究人员开展了一种新型数据流灵活型加速器设计研究。通过采用设计空间探索(DSE)工具筛选代表性数据流作为操作模式、动态切换机制及硬件资源共享优化,实现在仅增加6.4%芯片面积和可忽略能耗开销的前提下,平均延迟降低34.6%。该研究为AI加速器架构设计提供了重要的优化范式。
随着深度神经网络(DNN)在内容推荐、人脸识别和聊天机器人等人工智能应用中的广泛部署,各类DNN模型呈现出显著差异化的计算特性。然而,传统固定数据流加速器(FDA)采用单一数据流策略,无法适应不同层级和模型的多样化计算需求,导致硬件资源利用效率低下。异构数据流加速器(HDA)虽通过静态集成多种数据流有所改进,但其刚性架构仍存在数据流灵活性受限和硬件资源闲置等问题。
为突破现有加速器架构的局限性,研究团队开发了一种创新数据流灵活型加速器设计。该设计通过静态筛选有限数量的代表性数据流作为操作模式(operating modes),并实现动态切换机制,显著提升了多DNN推理任务的适应能力。研究采用设计空间探索(DSE)工具Zigzag对候选数据流进行效能评估,结合模式转换优化和硬件组件复用技术,最终在延迟、能耗和芯片面积间取得最佳平衡。
关键技术方法包括:1)利用Zigzag框架进行空间映射评估和效能预测;2)采用LOMA算法进行时序映射搜索;3)基于启发式v2方法的空间映射优化;4)应用CACTI7和Design Compiler进行能耗与面积评估;5)支持8位整型精度的PE阵列设计。实验使用MLPerf和AR/VR等多DNN工作负载,在边缘计算、移动设备和云端三种硬件设置下进行验证。
研究结果:
2.1 DNN与数据流特性
研究阐明了DNN计算中7维循环空间的特征,揭示数据流通过循环排序和空间展开决定加速器效能的关键机制。数据显示不同的时空映射策略直接影响缓冲器访问次数、并行度和数据复用效率。
2.2 异构数据流加速器局限
分析表明HDA采用NVDLA风格(权重固定)和Shi-diannao风格(输出固定)两种数据流,虽比FDA提升30%延迟,但静态分配机制导致:1)数据流多样性不足;2)子加速器闲置问题;3)扩展性受限。
2.3 设计空间探索价值
通过Zigzag工具实现了架构-映射对的成本评估,其能耗预估误差<5%,相比Timeloop和Accelergy工具能发现能效提升64%的映射方案。
3.1 整体设计框架
提出三阶段优化流程:1)基于利用率筛选候选操作模式;2)评估模式组合的延迟-面积权衡;3)生成加速器规格和调度信息。创新性引入模式转换开销优化算法(OLatency)。
3.2 候选模式发现
通过算法1实现拓扑过滤,选择在目标模型中保持高利用率的空间映射。以利用率得分Sut[map]为指标,筛选前NC个映射作为候选模式。
3.3 最优模式选择
采用算法2评估2-NM种模式组合,通过延迟面积乘积最小化准则确定最优配置。实验显示AR/VR与MLPerf工作负载分别需要3-4种操作模式。
3.4 模式转换优化
算法3成功将模式转换次数降低49.36%,通过相邻层模式一致性检查和转换开销评估,显著减少动态重构带来的性能损耗。
3.5 芯片面积最小化
通过识别硬件组件冗余(如行列多路复用器和加法树),实现跨模式硬件共享。在移动设备设置下,支持三种操作模式的加速器仅比HDA增加6.4%芯片面积。
实验验证采用与HDA研究相同的硬件设置(边缘:32×32 PE/4MiB;移动:64×64 PE/8MiB;云端:128×128 PE/16MiB)和工作负载(AR/VR-A/B和MLPerf)。结果显示:相比HDA平均延迟降低34.6%,能耗基本持平(+0.04%);相比NVDLA延迟降低53.0%,能耗降低3.24%;相比MAERI(RDA)延迟略高3.7%,但能耗降低36.84%。面积评估表明:相比NVDLA增加22%芯片面积,但相比MAERI减少约90%面积开销。
研究结论表明,这种数据流灵活型加速器设计成功解决了多DNN推理中的适应性难题。通过有限操作模式的动态切换机制,在保持接近可重构数据流加速器(RDA)性能的同时,显著降低了硬件开销。该研究为边缘计算到云端服务的AI加速器设计提供了重要的架构优化方向,特别是在处理异构DNN工作负载方面展现出显著优势。未来研究可进一步探索多PE阵列扩展和稀疏神经网络加速的应用前景。
论文发表于《Futures》期刊,由Hyunjun Kim、Whoi Ree Ha、Yongseok Lee等学者共同完成,为AI硬件架构领域提供了创新性的设计方法论和优化思路。
生物通微信公众号
知名企业招聘