EGBAD:一种基于图增强方法的异常检测算法,用于用户级别的多能源负载数据

《Energy and AI》:EGBAD: Ensemble graph-boosted anomaly detection for user-level multi-energy load data

【字体: 时间:2025年10月11日 来源:Energy and AI 9.6

编辑推荐:

  异常检测在用户级多能源系统中至关重要,传统方法难以处理高维时空耦合数据及类别不平衡问题。本文提出EGBAD框架,通过动态图构造(基于MDS降维)、图卷积网络(GCN)建模时空关联,结合自适应Boosting提升少数类检测能力。实验表明,EGBAD在极端不平衡数据(5%异常率)下实现最高F1-score(96.8%),较基线方法提升显著,且推理延迟仅3ms,验证了其在工业场景的实用性。

  在现代能源系统中,异常检测扮演着至关重要的角色,尤其在数据驱动的应用场景中。传统的方法往往专注于单一的能源负载,而忽视了多变量能源时间序列之间的潜在空间关联。此外,用户级多能源负载数据的不平衡性也构成了一个重大挑战。本文提出的EGBAD框架,结合了图关系分析和集成学习的优势,旨在解决上述问题。该框架通过多维尺度(MDS)构建动态图结构,将多能源负载数据转换为图表示,从而捕捉多变量时间序列之间的时空关系。为了提升在类别不平衡情况下的检测鲁棒性,整个训练过程嵌入到一个Boosting集成学习框架中,其中在每个Boosting阶段逐步增加少数类样本的权重。实验结果表明,该模型在多个基准数据集上实现了优于大多数基线方法的异常检测精度。特别是在极端数据不平衡的场景中,EGBAD表现尤为出色,达到了最高的召回率和F1分数。

用户级集成能源系统对于确保现代电力系统的安全、可靠和低碳运行至关重要。其有效性高度依赖于高质量数据的支持,以完成诸如负载预测和资源调度等关键任务。然而,用户级数据常受到传感器故障、设备损坏或网络攻击等异常因素的影响,这不仅损害了数据的完整性,也突显了开发稳健异常检测技术的必要性。尽管近年来取得了一些进展,但用户级多能源负载数据的异常检测依然面临诸多挑战。这包括数据的高不确定性与波动性、标签数据的稀缺与不平衡,以及复杂的空间-时间相关性。这些因素使得传统的统计方法和监督学习模型在处理用户级数据时显得力不从心。

为了应对这些挑战,本文提出了一种新的框架EGBAD,该框架将图表示学习与Boosting集成学习相结合。在EGBAD中,首先通过多维尺度方法构建动态图结构,将多能源负载数据映射到图中,捕捉其时空耦合特性。然后,通过图卷积网络(GCN)对这些图结构进行处理,以建模多能源负载时间序列之间的空间-时间关系。此外,为了提高在类别不平衡情况下的检测鲁棒性,整个训练过程被嵌入到一个Boosting集成学习框架中,其中在每个Boosting阶段逐步增加少数类样本的权重。这种设计有效缓解了多数类样本的过拟合问题,并提高了对罕见异常的检测能力。

本文提出的EGBAD框架的三个核心组件包括:1)动态图构建,利用多维尺度方法将多能源时间序列嵌入图结构,从而捕捉其时空耦合特性;2)基于GCN的图关系分析,用于建模图结构中的空间-时间关系;3)Boosting集成学习框架,通过逐步调整样本权重,提升对难以检测样本的识别能力,从而增强模型在不平衡数据上的鲁棒性。实验结果表明,EGBAD在真实世界数据集上表现优异,特别是在极端数据不平衡的情况下,其召回率和F1分数均达到最优。

用户级多能源负载数据的异常检测面临两大持续挑战:标签稀缺和极端类别不平衡。这源于数据采集的实际限制和严格的隐私保护措施。因此,构建大规模、完全标注的数据集通常不现实,这限制了纯监督模型的有效性。为了应对这些限制,本文采用了针对用户级多能源负载的Boosting集成训练框架。通过这种方法,模型在每个阶段逐步调整样本权重,从而更专注于难以检测的样本,提高了对罕见异常的识别能力。同时,EGBAD的Boosting框架有助于缓解数据不平衡带来的问题,使模型在有限标签的情况下仍能保持较高的检测精度。

本文提出的EGBAD模型在多个真实世界数据集上的实验结果表明,它在多能源负载异常检测任务中表现优于大多数基线方法。在极端数据不平衡的场景中,EGBAD实现了最高的召回率和F1分数。这些结果验证了EGBAD在捕捉多能源负载数据的复杂时空关系和应对类别不平衡方面的有效性。此外,通过消融实验,我们验证了EGBAD的各个组件对模型性能的影响。结果显示,移除Boosting集成框架会显著降低模型的性能,F1分数从95.6%降至88.5%。这表明Boosting框架在处理类别不平衡数据中的关键作用。而使用静态图结构和替换GCN为其他图神经网络模型也会导致F1分数的下降,进一步验证了EGBAD的设计选择。在MDS维度的消融实验中,我们发现2维映射在保持检测精度的同时,显著降低了计算成本。通过调整Boosting阶段的数量,我们发现K=3的设置在准确性和模型复杂度之间提供了最佳的平衡。

EGBAD模型还通过可视化方法展示了其在用户级多能源负载数据中的可解释性。在特定时间段内,模型对多能源负载与相关特征变量之间的相关性进行了分析,并构建了图结构以识别具体的异常类型。这种图关系学习方法不仅能够捕捉多变量时间序列之间的相关性,还能帮助解释模型的决策过程,从而提升其在实际应用中的可信度。

本文的结论是,EGBAD框架通过结合图表示学习和Boosting集成学习,能够有效应对用户级多能源负载数据的复杂性与不平衡性。实验结果表明,该模型在真实世界数据集上的表现优于大多数基线方法,特别是在极端数据不平衡的情况下。然而,在实际工业应用中,噪声标签可能成为另一个挑战。因此,未来的工作可以考虑在存在噪声标签的场景中进一步探索集成框架的可行性。此外,本文还强调了在设计模型时对模型性能与计算效率之间的权衡,以及如何通过调整模型结构和参数来优化其在实际应用中的表现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号