
-
生物通官微
陪你抓住生命科技
跳动的脉搏
NICE:通过硬件友好的索引辅助压缩技术实现深度神经网络的加速
《ACM Transactions on Architecture and Code Optimization》:NICE: Deep Neural Network Acceleration via Hardware-Friendly Index Assisted Compression
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
本文提出NICE框架,通过算法与硬件协同设计,结合未结构化权重稀疏和中心点激活索引,将MAC操作转换为查表机制,有效解决激活异常和动态稀疏问题,实验表明能效提升51.3%,速度加快3.83倍。
本摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助读者发现相关内容、评估文章的相关性,并协助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要,后者仍是文章的官方总结。完整文章才是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
AI生成摘要
该摘要由基于已发表文章文本的自动化系统生成。
版本创建于2026年2月7日。
本文探讨了大型神经网络(尤其是大型语言模型)所带来的日益严重的计算挑战,这些模型需要高效的硬件加速。传统的模型压缩技术由于激活值异常值降低了均匀量化的准确性,以及激活值的非规则稀疏性(硬件难以有效利用),因此面临瓶颈。现有的基于索引的方法(如混合精度量化或非均匀量化)增加了大量的硬件复杂性和开销,限制了实际收益。
作者提出了NICE,这是一种算法和硬件的协同设计框架,它结合了非结构化权重剪枝和基于质心的激活索引来提高效率。NICE通过将稀疏权重和聚类激活质心编码为索引,将乘累加操作重构为表查找。这使得可以预先计算乘法结果并将其存储在查找表(LUT)中,索引处理单元(IPE)在推理过程中可以直接使用这些结果,从而消除了昂贵的MAC操作和复杂的解码逻辑。
NICE的压缩策略采用基于ADMM的权重剪枝技术,实现了高达80%的权重稀疏度,同时保持准确性;对于激活值,则使用k-means聚类生成自适应质心,从而在动态激活分布和异常值存在的情况下实现有效的量化。量化的激活值和权重被编码为固定位宽的索引,从而实现对齐的内存访问。为了在硬件上支持这一点,NICE引入了一种基于权重静态收缩阵列的架构,用基于LUT的索引处理单元(IPE)替代了传统的处理单元,这些单元通过键匹配和预计算结果检索来执行计算。这种设计显著减少了数据传输和计算开销。
实验评估表明,与最先进的量化和稀疏加速器相比,NICE在各种CNN和基于注意力模型的推理任务中实现了高达51.3%的能量节省和3.83倍的加速,包括ImageNet基准测试和像GPT-2 XL这样的大型语言模型。该架构具有良好的扩展性,由于索引管理的复杂性降低和消除了变长编码,因此具有更低的面积开销和更高的硬件效率。敏感性研究表明,仔细平衡质心数量和稀疏度对于优化准确性和性能至关重要。
总之,NICE提供了一种新颖的、对硬件友好的、基于索引的压缩和加速方法,能够有效管理激活值异常值和权重稀疏性。通过用固定位宽索引的LUT查找替代传统的MAC操作,它将算法压缩的优势与高效的硬件实现相结合。这种协同设计方法推动了高效深度神经网络推理的技术进步,特别是对于那些难以用传统方法加速的大型模型。