MCExplorer:探索多种计算引擎深度学习加速器的设计空间
《ACM Transactions on Architecture and Code Optimization》:MCExplorer: Exploring the Design Space of Multiple Compute-Engine Deep Learning Accelerators
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
模型感知加速器通过多计算引擎(CEs)架构优化FPGA资源利用,解决不同模型操作的计算特性差异。MCExplorer框架实现多目标(吞吐量、延迟、能效)优化,突破现有研究限制,实验验证其性能提升达2.8倍吞吐量、2.1倍加速和45%能效增益,强调广域搜索对性能效率平衡的重要性。
摘要
模型感知型深度学习(DL)加速器在性能和效率方面优于通用加速器。这些模型感知型加速器通常包含多个专用计算引擎(Compute Engines, CEs),以处理DL模型中各种计算任务的特性。多计算引擎加速器通常针对现场可编程门阵列(Field-Programmable Gate Arrays, FPGAs),因为FPGA的可重构性能够使计算引擎架构适应模型操作的不同计算需求。随着DL模型的持续发展及其在应用领域的广泛应用(这些应用领域具有多样化的优化目标,如低延迟、高吞吐量和能效),寻找高度优化的多计算引擎加速器架构变得颇具挑战性。多计算引擎加速器的设计空间非常广泛,而现有的研究仅探索了其中的一小部分,这阻碍了高性能、高效率加速器的发现。
为了解决这一挑战,我们提出了一个用于探索基于FPGA的多计算引擎加速器设计空间的框架(MCExplorer)。MCExplorer包含一系列单目标和多目标优化算法,旨在优化吞吐量、延迟和能效等指标之间的平衡。该框架在给定DL模型、硬件资源预算以及一个或多个目标的情况下,搜索最优的多计算引擎加速器架构。与现有研究相比,MCExplorer不限制计算引擎之间的排列方式,并探索各个计算引擎的不同配置,从而扩展了研究范围。我们使用多种DL模型和硬件资源预算对MCExplorer进行了评估。评估结果表明,通过探索更广泛的搜索空间,MCExplorer能够找到高度优化的多计算引擎加速器:这些加速器的吞吐量提高了2.8倍,速度提升了2.1倍,能效降低了45%。此外,评估还表明,广泛的探索是发现具有最佳性能-效率平衡的多计算引擎加速器的关键。MCExplorer的代码可在以下链接获取:https://github.com/fqararyah/MCExplorer。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号