回顾过去,展望未来:揭开高精度测量(HBM)误差的神秘面纱,以预测未来的故障
《ACM Transactions on Storage》:Looking Back to Move Forward: Unveiling the Mysteries of HBM Errors to Predict Future Failures
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Storage
编辑推荐:
针对高带宽内存(HBM)可靠性问题,本文通过分析19个数据中心两年内4600万次错误事件,揭示其与传统DRAM不同的空间局部性、时间相关性和传感器指标特征,并提出基于多维度信息的Calchas层次化预测框架,验证其跨层级故障预测的有效性。
摘要
高带宽内存(HBM)被认为是一种有望从根本上克服“内存墙”限制的技术。它通过垂直堆叠多个DRAM芯片来显著提升内存访问带宽。然而,这种架构也带来了更为严重的可靠性问题,因为HBM不仅继承了传统DRAM的错误模式,还引入了新的错误来源。
在本文中,我们对HBM的错误进行了首次系统性研究,分析了来自19个数据中心、跨越两年时间、在多种服务环境下收集的超过4.6亿个错误事件。通过错误分析和方法论验证,我们发现HBM在错误模式上与传统DRAM存在显著差异,这些差异体现在空间局部性、时间相关性以及传感器指标等方面,使得基于传统DRAM错误预测模型的方法无法有效用于HBM的错误预测。基于我们的研究结果,我们设计并实现了Calchas——一个针对HBM的分层故障预测框架,该框架整合了来自不同设备层次的空间、时间和传感器信息,以预测即将发生的故障。实验结果证明了分层故障预测的可行性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号