深度神经网络加速器中的运行时故障定位

《ACM Transactions on Design Automation of Electronic Systems》:Runtime Fault Localization in Deep Neural Network Accelerators

【字体: 时间:2025年11月08日 来源:ACM Transactions on Design Automation of Electronic Systems

编辑推荐:

  systolic数组因并行性和高效数据复用成为DNN加速器的优选,但硬件故障易导致推理精度下降。本文提出实时故障检测与定位框架,通过运行时功能数据生成校验和实现故障定位,实验表明在256×256数组上面积开销低于2%,模拟验证故障检测与定位准确率达100%。

  

摘要

由于固有的并行性和高效的数据重用能力,同步阵列成为加速深度神经网络(DNN)的常用选择。然而,确保这些DNN加速器的可靠性至关重要,因为硬件故障会显著降低推理精度。由于同步阵列使用大量处理单元(PEs)进行并行处理,涉及故障PE的数据流尤其值得关注。错误在PE中的传播会降低DNN工作负载的推理精度。尽管已经提出了故障检测和修复技术来提高同步阵列的鲁棒性,但故障定位仍然是一个未解决的问题。我们提出了一个容错框架,该框架包括基于运行时的故障检测和故障定位,并利用功能数据动态生成校验和。这种方法能够在正常运行期间进行错误检测和定位,无需专门的测试模式或额外的停机时间。实验评估表明,对于256 × 256的同步阵列,所提出的故障定位架构带来的面积开销小于2%。在仿真中,该方法在256 × 256的同步阵列中实现了100%的故障检测和定位。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号