基于熵因果图的多变量时间序列异常检测新方法CGAD:提升9%检测性能的创新框架

《ACM Transactions on Intelligent Systems and Technology》:Entropy Causal Graphs for Multivariate Time Series Anomaly Detection

【字体: 时间:2025年11月07日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  本综述提出了一种名为CGAD(熵因果图异常检测)的新型多变量时间序列异常检测框架。该框架利用转移熵(TE)构建揭示变量间因果关系的图结构,结合加权图卷积网络(GCN)和因果卷积建模时空模式,并采用基于中位数绝对偏差(MAD)的标准化策略提升异常评分鲁棒性。实验表明CGAD在多个真实数据集上平均性能提升9%,显著优于现有方法。

  

1 引言

多变量时间序列分析在制造业、能源、交通等领域具有重要作用,尤其在系统故障检测和网络安全方面至关重要。当前大多数深度学习框架未能充分考虑多变量时间序列中变量间的内在关系,忽略了因果关系,导致检测性能下降。CGAD框架通过因果发现技术构建图结构,利用信息论方法增强异常检测的准确性和可解释性。

2 相关工作

2.1 多变量时间序列异常检测方法

现有方法主要包括重构型和预测型两类。重构型方法如OmniAnomaly、MAD-GAN等通过重建误差识别异常,而预测型方法如GDN、GTA通过预测偏差检测异常。图学习技术的引入(如MTAD-GAT)通过图注意力网络建模变量关系,但现有方法大多未充分考虑因果关系。

2.2 图生成技术

GTS、GTA等方法使用Gumbel-softmax采样边概率,但存在过拟合和泛化能力差的问题。GDN、MTGNN等方法通过可学习向量嵌入构建拓扑,但限制了节点的度分布。CauGNN虽使用转移熵构建图结构,但仅保留单向因果关系,灵活性不足。

2.3 因果发现方法

Granger因果和转移熵(TE)是两种主要方法。TE作为广义Granger因果,能够捕捉线性和非线性关系。尽管计算成本较高,但通过Kraskov方法等估计技术可加速计算过程。

3 CGAD设计

3.1 问题表述

多变量时间序列数据表示为X∈RN×T,其中N为变量数(如传感器数量),T为时间长度。通过预测值与实际值的偏差计算异常得分,最终通过阈值判断异常事件。

3.2 框架概述

CGAD包含三个核心模块:因果图生成(基于TE构建加权邻接矩阵)、加权GNN预测(结合GCN和时序卷积)、中位数偏差评分(基于MAD标准化)。整体框架实现了从因果发现到异常诊断的完整流程。

3.3 因果图生成

采用基于直方图的转移熵计算,通过概率密度函数估计信息熵、联合熵和条件熵。TE计算公式为:
TEJ→I = H(It|It-1) - H(It|It-1,Jt-1)
通过设定阈值c过滤弱因果关系,形成加权有向图结构。采用PyIF库和分段采样策略提升计算效率。

3.4 加权GNN预测

使用两层级联图卷积层:
H(l+1) = σ(D?-1/2?D?-1/2H(l)Θ(l))
时序卷积模块采用多尺度因果卷积(核尺寸2,3,5,6),结合门控机制(tanh和sigmoid激活函数)控制信息流。跳跃连接层防止梯度消失,输出模块通过线性层生成预测。

3.5 中位数偏差评分

计算节点级误差:
errori,t = |x?i,t - xi,t|
通过MAD标准化得到异常评分:
ai,t = (errori,t - medi)/MADi
系统级异常评分采用最大值聚合:
st = MAXi∈N(ai,t)
最终通过极值理论(POT)自动确定异常阈值。

3.6 复杂度分析

因果图生成复杂度为O(G×N2×w),GNN预测复杂度为O(N2×F)+O(T×m),评分模块复杂度为O(N×T log T)。整体计算效率可满足实际应用需求。

4 实验验证

4.1 数据集

在SWAT(水处理)、WADI(供水系统)、SMAP(航天器)、MSL(火星车)、SMD(服务器指标)和PSM(服务器性能)六个真实数据集上进行测试,涵盖工业控制、航天技术和互联网应用场景。

4.2 基线方法

对比方法包括LSTM-NDT、DAGMM、OmniAnomaly、USAD等非图方法,以及MTAD-GAT、GDN、GTA、DVGCRN等图方法,涵盖重构型和预测型两类策略。

4.3 实验设置

使用Python 3.9.12、PyTorch 1.13.1和PyTorch Geometric 2.2.0实现。学习率设为1×10-3,窗口大小为15,批量大小为32,训练周期为10。

4.4 评估指标

采用点级F1分数、复合分数(F1c)和点调整分数(F1PA)三种指标,全面评估点级异常检测和事件级异常检测性能。

4.5 RQ1 实验结果

CGAD在六个数据集上平均性能提升9%,在F1、F1c和F1PA三个指标上分别达到0.4948、0.7445和0.9635,显著优于所有基线方法。特别是在SWAT数据集上,CGAD的F1c分数(0.8968)比最佳基线方法(MAD-GAN的0.5516)提高62.5%。

4.6 RQ2 消融研究

移除因果图(-Caugraph)使性能平均下降17.06%,移除图卷积(-GConv)下降17.00%,移除标准化(-Zscore)下降44.37%,验证了各模块的必要性。

4.7 RQ3 定性分析

因果图展现出高度灵活性,节点出度分布呈现多样化形态,优于固定度分布的top-k方法和单一形态的Gumbel-softmax方法。通过可视化因果事件,展示了变量间因果关系的可解释性。

4.8 RQ4 异常诊断

通过节点级异常评分和系统级聚合评分,实现了细粒度的异常定位和系统级异常检测,为实际应用提供了有效的诊断工具。

5 结论

CGAD框架通过因果发现、时空建模和鲁棒评分三个核心创新,显著提升了多变量时间序列异常检测性能。该方法不仅具有优异的检测能力,还提供了良好的可解释性,为工业物联网、航天监测等领域的异常检测提供了有效解决方案。未来工作将关注分布偏移问题和持续学习机制的引入。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号