工业多传感器数据流异常检测的混合方法:新数据集与性能提升
《Heliyon》:A hybrid approach to anomaly detection in industrial multi-sensor data streams
【字体:
大
中
小
】
时间:2025年10月08日
来源:Heliyon 3.6
编辑推荐:
本研究针对工业多传感器时间序列数据异常检测中标注成本高、现有数据集局限性大的问题,提出了一种结合无监督与有监督学习的混合方法。通过无监督技术筛选关键日期进行标注,大幅减少人工标注需求,并利用新构建的大规模真实工业数据集验证了方法的有效性。实验表明,该方法在NAB基准和自建数据集上均实现了高召回率与AUC值(如XGBoost的AUC达0.981),为工业异常检测提供了可扩展的解决方案。
在工业4.0时代,传感器网络持续产生海量时间序列数据,如何高效准确地检测异常成为保障生产安全的关键挑战。传统异常检测方法面临两难困境:无监督方法虽无需标注但准确率低,有监督方法性能优越却受限于大规模数据标注的可行性。更棘手的是,现有公开数据集(如NAB、GHCN等)普遍存在数据量小、合成性强、维度单一等问题,导致模型在实际工业场景中表现不佳。
为此,Manohara Pai M.M等研究人员在《Heliyon》发表论文,提出一种创新混合方法。该方法核心在于通过无监督技术智能筛选少量关键日期进行人工标注,进而训练有监督模型实现全数据集的高精度检测。为克服数据瓶颈,团队还构建了包含9个传感器、93万条记录的真实工业数据集,覆盖电机振动、温度、流量等多维参数。
研究采用十大无监督算法(包括VAR、DBSCAN、隔离森林等)从10,000条初始数据中识别关键标注日期。如图1所示,流程先通过无监督模型生成初始标签,经专家验证后训练机器学习模型。特别值得一提的是数据预处理环节,针对连续缺失值采用差异化填充策略:连续缺失≥5次填零,<5次则根据前后数据特征选择填零或非零均值填充。
在技术方法上,研究重点包括:1)利用VAR(向量自回归)模型处理多变量时间序列关联,通过ADF(增广迪基-富勒)检验确定最佳滞后阶数;2)构建包含4个稠密层的变分自编码器(VAE)计算重构误差;3)采用LSTM(长短期记忆网络)和GRU(门控循环单元)进行序列预测;4)集成DBSCAN(基于密度的聚类应用与噪声空间检测)等传统算法与深度学习模型。
在NAB的MTSF(机器温度系统故障)数据集上,混合方法显著优于单一方法(表3)。例如OCSVM(单类支持向量机)与CatBoost组合的AUC达0.994,而随机选择标注日期的方法仅0.790。关键发现在于:通过集成多个无监督模型选择的标注日期,仅需26%的标注量即可达到95%以上的检测精度。
如图3所示,在自建工业数据集中,仅用3天(3,205条记录)标注数据训练的模型,在测试10,000条记录时达到近乎完美的性能(表7)。XGBoost和随机森林等模型实现召回率0.999、AUC1.000,证明该方法对真实工业场景的强适应性。
研究揭示了传统数据集的三大局限:单变量主导、规模不足、缺乏实时性。而提出的混合方法通过“无监督筛选+有监督精炼”模式,成功平衡标注成本与检测精度。值得注意的是,该方法对上下文相关异常(如传感器停机后的零值)具有独特识别能力。
当然,研究也存在一定局限性。尽管对初始1万条记录进行精细标注,仍可能存在人工误差;且方法更适用于非文本/图像类时序数据。作者建议未来可引入注意力机制优化特征提取,结合超参数自动搜索技术进一步提升模型效率。
这项工作的双重贡献在于:既提供了首个涵盖多传感器、大规模的真实工业异常检测数据集,又开创了低标注成本的混合检测范式。随着工业物联网数据持续增长,该方法为智能制造、设备预测性维护等领域提供了切实可行的技术路径,推动异常检测从实验室走向工业现场。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号