
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于SMART-Z技术的147,496块硬盘故障预测数据集构建与验证
【字体: 大 中 小 】 时间:2025年07月03日 来源:Scientific Data 5.8
编辑推荐:
本研究针对企业级硬盘故障预测需求,由天津理工大学联合中兴通讯和北京大学团队构建了SMART-Z数据集,包含147,496块硬盘的SMART监控数据(含712块故障盘)。通过创新性时间窗口采样策略和智能熔断机制,解决了传统采集方法导致的系统性能抖动问题,数据缺失率仅5.3%,显著优于Backblaze数据集(14.78%)。该数据集首次公开阈值(Threshold)、最差值(Worst)、设备IP等关键属性,支持通过业务场景(bureau)维度实现区域性设备分布统计,为构建高精度硬盘故障预测模型提供了新范式。
在数字化时代,硬盘故障如同悬在企业数据安全头上的达摩克利斯之剑。传统硬盘自监测技术(SMART)虽能通过阈值报警提示故障风险,但其准确率不足30%,且主流研究依赖Backblaze发布的单一品牌数据集,存在数据类型局限(仅SATA硬盘)和关键属性缺失等问题。更棘手的是,大规模采集SMART数据会引发系统性能雪崩——测试显示,同时采集1万块硬盘会导致6.4秒的服务中断,这对视频流媒体等实时业务堪称灾难。
天津理工大学联合团队创新性提出SMART-Z解决方案,通过三大技术突破构建了目前最全面的企业级硬盘故障数据集。研究团队设计了动态时间窗口采集策略,将传统"整点采集"改为"5-25分/35-55分"的分散采集,配合峰值时段排除列表(BUSY_TIME_LIST)和三级异常进程检测模型(生命周期/资源占用/I/O阻塞特征),使采集过程对业务带宽的影响降至0.96%,远低于传统方法造成的20秒服务中断。数据集包含65种硬盘型号的195,840,912条记录,首次披露的"最差值(Worst)"参数能追溯硬盘运行期间经历的最大异常状态,而"业务场景(bureau)"字段(如Anhui_DX_10012)则揭示了环境因素对设备集群的共性风险。
关键技术方法包括:1)基于智能熔断策略的多维监控系统,采用20秒超时阈值和动态调整机制;2)SAS/SATA/SSD三类型硬盘的差异化采集方案,如SAS硬盘需通过megaraid控制器获取SMART信息;3)特征筛选算法消除方差为0的干扰特征(如SMART ID 5)。
数据记录
数据集包含三个核心文件:log_hdsmart_base.csv记录硬盘基础信息(含业务场景和IP),log_hdsmart_param.csv存储SMART参数(含Pre_fail/Old_age预警分级),offline-hdsmart.csv标注故障盘累计通电时间(powerontime)。特别值得注意的是,SAS硬盘因协议差异导致10.7%的阈值字段空白,这反映了不同硬盘类型的本质特性而非数据缺失。
技术验证
单次采集测试显示,SMART采集仅引发0.88%的带宽波动,而传统批量采集会造成9.18秒服务中断。通过图4可见,优化后的采集方法将万盘采集的性能抖动控制在100毫秒内。


结论与意义
该研究首次实现三大创新:1)突破企业级环境数据采集瓶颈,通过"时间窗隔离+智能熔断"使采集稳定性提升9倍;2)建立目前最全面的多类型硬盘故障特征库,其中SMART ID 175(Program_Fail_Count_Chip)等参数被证实对故障区分度显著(图2a);3)开创性地引入业务场景维度,为环境因素导致的集群级故障预警提供新思路。

生物通微信公众号
知名企业招聘