回顾过去,展望未来:揭开高精度测量(HBM)误差的神秘面纱,以预测未来的故障

《ACM Transactions on Storage》:Looking Back to Move Forward: Unveiling the Mysteries of HBM Errors to Predict Future Failures

【字体: 时间:2025年11月08日 来源:ACM Transactions on Storage

编辑推荐:

  针对高带宽内存(HBM)可靠性问题,本文通过分析19个数据中心两年内4600万次错误事件,揭示其与传统DRAM不同的空间局部性、时间相关性和传感器指标特征,并提出基于多维度信息的Calchas层次化预测框架,验证其跨层级故障预测的有效性。

  

摘要

高带宽内存(HBM)被认为是一种有望从根本上克服“内存墙”限制的技术。它通过垂直堆叠多个DRAM芯片来显著提升内存访问带宽。然而,这种架构也带来了更为严重的可靠性问题,因为HBM不仅继承了传统DRAM的错误模式,还引入了新的错误来源。
在本文中,我们对HBM的错误进行了首次系统性研究,分析了来自19个数据中心、跨越两年时间、在多种服务环境下收集的超过4.6亿个错误事件。通过错误分析和方法论验证,我们发现HBM在错误模式上与传统DRAM存在显著差异,这些差异体现在空间局部性、时间相关性以及传感器指标等方面,使得基于传统DRAM错误预测模型的方法无法有效用于HBM的错误预测。基于我们的研究结果,我们设计并实现了Calchas——一个针对HBM的分层故障预测框架,该框架整合了来自不同设备层次的空间、时间和传感器信息,以预测即将发生的故障。实验结果证明了分层故障预测的可行性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号