GREAD:基于细粒度相对熵的混合数据异常检测方法

《Expert Systems with Applications》:GREAD: Granular relative entropy-based anomaly detection in hybrid data

【字体: 时间:2026年02月13日 来源:Expert Systems with Applications 7.5

编辑推荐:

  异常检测方法在高维混合数据中面临异质性和信息模糊的挑战。本文提出基于粗粒度相对熵的GREAD方法,通过模糊信息粒度构建和图分割属性子空间,量化数据不确定性以检测子空间异常。实验证明该方法在24个真实数据集上优于现有算法,有效处理数值与类别混合数据及特征交互问题。

  
Baiyang Chen|Zhong Yuan|Dezhong Peng|Hongmei Chen
四川大学计算机科学学院,成都,610065,中国

摘要

在高维混合数据中检测异常对于数据分析至关重要,尤其是在各种应用中。然而,现有方法在处理具有异质性和不确定性的复杂数据时往往遇到困难,同时也难以捕捉仅在子空间中显现的属性间依赖性。本文提出了一种基于粒度相对熵的异常检测方法(GREAD),用于高维混合数据。GREAD的核心是利用粒度计算和模糊信息熵(通过粒度相对熵(GRE)的概念)从粒度的不确定性角度分析异常。首先,GREAD从混合属性中构建模糊关系以表示数据的所有结构信息。接着,基于模糊互信息将属性划分为有意义的子集,以捕捉属性间的依赖性。随后,在每个子空间内计算GRE值,并将这些GRE值整合起来,为每个数据对象计算异常分数。在多种真实世界数据集上的广泛评估表明,GREAD的性能优于现有的最先进方法。所有相关数据和代码均可公开获取,以便进一步研究和应用。

引言

在复杂数据中检测异常是知识发现和数据挖掘中的关键任务,适用于各种应用。异常通常预示着重要或不寻常的事件,可以在不同领域提供有价值的见解。例如,在医学诊断中检测异常可以识别罕见疾病或患者的不寻常反应(Alagarsamy, Zhang, Govindaraj, Rajasekaran, & Sankaran (2021); Fernando et al. (2020))。在欺诈检测中,异常可以揭示金融交易中的欺诈行为(Pourhabibi, Ong, Kam, & Boo (2020); Ruiz, Sánchez, Delgado, & Martin-Bautista (2016))。网络安全依赖于异常检测来识别网络威胁和漏洞(Dey, Ye, & Sampalli (2019)。在可持续交通系统中,异常可以突出效率低下或意外模式(Karczmarek et al. (2023))。尽管近年来许多检测方法取得了显著进展,但仍有一些挑战需要进一步探索。
首先,处理具有异质性和不确定性的复杂数据:现实世界的数据往往表现出异质性(Zhang, Mei, Chen, & Li (2016) 和不确定性(Yuan et al. (2023)),其中数据属性通常是不同类型(例如,数字、类别、符号或多种类型的混合),并且由于测量误差、定义模糊、主观判断或不完整信息而包含不确定性或模糊性。这给将具有不确定性的混合属性统一为一个指标带来了挑战,同时不丢失重要信息。虽然可以通过某种方式将混合值转换为数字(例如,独热编码、序数编码),但这种转换可能导致原始信息的丢失或失真。为了解决这个问题,我们的方法利用粒度计算(GrC)和模糊集来表示混合数据。GrC将复杂问题分解为更小、更简单的子问题,这些子问题由信息粒度表示。具体来说,通过构建模糊信息粒度,我们可以在不进行类型转换的情况下封装多样化的数据值,从而保留对准确异常检测至关重要的信息。
其次,捕捉仅在子空间中显现的异常的属性间依赖性:高维数据本身引入了大量可能的特征组合和配置,导致整个特征空间中的数据分布多样且可能稀疏。在这种情况下,异常可能仅在特征间相互作用更明显或数据点更稀疏的特定子空间中显现。这种现象也可以用维数灾难来解释,即许多不相关的特征使得距离或相似性的测量变得复杂。因此,在高维数据集中有效检测异常通常需要捕捉属性间依赖性并在相关子空间内分析数据。然而,许多现有检测方法(如Goldstein & Dengel (2012); Yuan et al. (2023))假设属性是独立的,从而忽略了属性之间的潜在联系。为了解决这一限制,Li et al. (Li, Zhang, Pang, & Qin (2020a) 提出将原始特征分组到子组中,并合并这些子空间中识别的所有异常值。然而,他们的方法仅限于分类数据。我们的方法引入了一种基于图的技术,根据模糊互信息将属性划分为有意义的子空间,有效地捕捉混合属性之间的复杂关系。这允许在相关子空间内进行有针对性的异常分析,并汇总结果以提高检测准确性。
本文的思路基于这样一个观察:异常与大多数数据显著不同,为系统引入了更多可能的结果,从而增加了系统的不确定性或随机性。香农的信息论可以数学上衡量不确定性,因此可以用来评估异常的程度。例如,Jiang et al. (Jiang, Sui, & Cao (2010) 使用粗糙集基于信息熵构建了异常检测方法,但这种方法仅限于名义特征。为了克服这一限制,Yuan et al. (Yuan, Chen, Li, Liu, & Wang (2021) 使用基于模糊粗糙集的模糊信息熵来检测异常。然而,这些方法没有考虑特征之间的相互作用,使得难以检测仅在子空间中显现的异常。为了解决这个问题,本文引入了粒度相对熵的概念,它结合了粒度计算和模糊信息熵,从粒度的不确定性角度分析异常。我们还提供了理论分析,证明我们的定义能够捕捉异常的特征。
基于上述思路,本文提出了一种基于粒度相对熵的异常检测方法(GREAD),用于高维混合数据。具体来说,我们首先从混合数据构建模糊关系,捕获输入数据的所有结构信息。接下来,我们基于模糊互信息将数据属性划分为子空间,揭示属性间的依赖性。然后我们定义粒度相对熵(GRE),描述每个子空间中对象的不确定性。最后,我们整合所有子空间的GRE值,为每个对象计算异常分数。本研究的主要贡献包括:
  • 本文结合了粒度计算和模糊集来表示混合数据,通过构建模糊信息粒度。这种整合为建模具有异质性和不确定性的复杂数据提供了灵活的框架。
  • 我们提出了一种基于图的方法,根据模糊互信息将属性划分为有意义的子空间。这种方法捕捉了属性间的复杂关系,允许有效分析仅在子空间中显现的异常。
  • 我们引入了粒度相对熵的概念,从粒度的不确定性角度分析异常。我们的理论分析表明,这种新度量有效地捕捉了异常的特征,同时具有理想的属性。
  • 在24个真实世界数据集上的广泛实验评估表明,所提出的GREAD方法的表现优于或与最先进的方法相当。
  • 本文的其余部分组织如下:第2节回顾相关工作。第3节介绍构成我们方法理论基础的模糊集和信息论的初步知识。第4节介绍我们提出的检测方法。第5节描述实验结果和性能评估。最后,第6节总结本文。

    相关研究

    相关研究

    异常检测受到了研究人员的广泛关注,从而在各个研究领域开发了许多检测算法。在本节中,我们重点回顾与我们的工作更相关的无监督方法。该领域主要包括以下分支:
    基于统计的方法假设正常对象是由概率分布生成的,将异常识别为出现在低概率区域的对象。例如,

    初步知识

    本节回顾了将在后续讨论中使用的一些模糊集和信息论的关键概念。

    方法论

    本节介绍了我们在图1中展示的检测方法。首先从混合数据构建模糊关系,捕获输入数据的所有结构信息。接着,我们基于模糊互信息将数据属性划分为子空间,揭示属性间的依赖性。然后我们定义粒度相对熵(GRE),描述每个子空间中对象的不确定性。此外,我们还提供了理论分析

    实验

    本节试图从实证角度调查以下问题:
  • 在真实世界场景中的性能:GREAD能否在不同应用中泛化以有效检测异常?
  • 处理混合属性:GREAD能否有效处理具有多种属性类型的数据集?
  • 参数分析:不同参数设置对GREAD的行为有何影响?
  • 统计分析
    :GREAD与比较方法之间是否存在统计学上的显著差异?
  • 结论

    本文重点介绍了一种基于粒度相对熵的异常检测算法(GREAD),用于高维混合数据。GREAD利用粒度计算和模糊信息熵来量化信息粒度的不确定性,为建模复杂数据提供了强大的框架。GREAD通过基于混合距离的模糊隶属函数有效地保留了对异常检测至关重要的结构信息。

    CRediT作者贡献声明

    Baiyang Chen:概念化、方法论、形式分析、数据整理、调查、软件开发、初稿撰写。Zhong Yuan:项目管理、监督、审稿与编辑。Dezhong Peng:资金获取、验证、审稿与编辑。Hongmei Chen:资源提供、审稿与编辑。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号