在复杂数据中检测异常是知识发现和数据挖掘中的关键任务,适用于各种应用。异常通常预示着重要或不寻常的事件,可以在不同领域提供有价值的见解。例如,在医学诊断中检测异常可以识别罕见疾病或患者的不寻常反应(Alagarsamy, Zhang, Govindaraj, Rajasekaran, & Sankaran (2021); Fernando et al. (2020))。在欺诈检测中,异常可以揭示金融交易中的欺诈行为(Pourhabibi, Ong, Kam, & Boo (2020); Ruiz, Sánchez, Delgado, & Martin-Bautista (2016))。网络安全依赖于异常检测来识别网络威胁和漏洞(Dey, Ye, & Sampalli (2019)。在可持续交通系统中,异常可以突出效率低下或意外模式(Karczmarek et al. (2023))。尽管近年来许多检测方法取得了显著进展,但仍有一些挑战需要进一步探索。
首先,处理具有异质性和不确定性的复杂数据:现实世界的数据往往表现出异质性(Zhang, Mei, Chen, & Li (2016) 和不确定性(Yuan et al. (2023)),其中数据属性通常是不同类型(例如,数字、类别、符号或多种类型的混合),并且由于测量误差、定义模糊、主观判断或不完整信息而包含不确定性或模糊性。这给将具有不确定性的混合属性统一为一个指标带来了挑战,同时不丢失重要信息。虽然可以通过某种方式将混合值转换为数字(例如,独热编码、序数编码),但这种转换可能导致原始信息的丢失或失真。为了解决这个问题,我们的方法利用粒度计算(GrC)和模糊集来表示混合数据。GrC将复杂问题分解为更小、更简单的子问题,这些子问题由信息粒度表示。具体来说,通过构建模糊信息粒度,我们可以在不进行类型转换的情况下封装多样化的数据值,从而保留对准确异常检测至关重要的信息。
其次,捕捉仅在子空间中显现的异常的属性间依赖性:高维数据本身引入了大量可能的特征组合和配置,导致整个特征空间中的数据分布多样且可能稀疏。在这种情况下,异常可能仅在特征间相互作用更明显或数据点更稀疏的特定子空间中显现。这种现象也可以用维数灾难来解释,即许多不相关的特征使得距离或相似性的测量变得复杂。因此,在高维数据集中有效检测异常通常需要捕捉属性间依赖性并在相关子空间内分析数据。然而,许多现有检测方法(如Goldstein & Dengel (2012); Yuan et al. (2023))假设属性是独立的,从而忽略了属性之间的潜在联系。为了解决这一限制,Li et al. (Li, Zhang, Pang, & Qin (2020a) 提出将原始特征分组到子组中,并合并这些子空间中识别的所有异常值。然而,他们的方法仅限于分类数据。我们的方法引入了一种基于图的技术,根据模糊互信息将属性划分为有意义的子空间,有效地捕捉混合属性之间的复杂关系。这允许在相关子空间内进行有针对性的异常分析,并汇总结果以提高检测准确性。
本文的思路基于这样一个观察:异常与大多数数据显著不同,为系统引入了更多可能的结果,从而增加了系统的不确定性或随机性。香农的信息论可以数学上衡量不确定性,因此可以用来评估异常的程度。例如,Jiang et al. (Jiang, Sui, & Cao (2010) 使用粗糙集基于信息熵构建了异常检测方法,但这种方法仅限于名义特征。为了克服这一限制,Yuan et al. (Yuan, Chen, Li, Liu, & Wang (2021) 使用基于模糊粗糙集的模糊信息熵来检测异常。然而,这些方法没有考虑特征之间的相互作用,使得难以检测仅在子空间中显现的异常。为了解决这个问题,本文引入了粒度相对熵的概念,它结合了粒度计算和模糊信息熵,从粒度的不确定性角度分析异常。我们还提供了理论分析,证明我们的定义能够捕捉异常的特征。
基于上述思路,本文提出了一种基于粒度相对熵的异常检测方法(GREAD),用于高维混合数据。具体来说,我们首先从混合数据构建模糊关系,捕获输入数据的所有结构信息。接下来,我们基于模糊互信息将数据属性划分为子空间,揭示属性间的依赖性。然后我们定义粒度相对熵(GRE),描述每个子空间中对象的不确定性。最后,我们整合所有子空间的GRE值,为每个对象计算异常分数。本研究的主要贡献包括:
•本文结合了粒度计算和模糊集来表示混合数据,通过构建模糊信息粒度。这种整合为建模具有异质性和不确定性的复杂数据提供了灵活的框架。
•我们提出了一种基于图的方法,根据模糊互信息将属性划分为有意义的子空间。这种方法捕捉了属性间的复杂关系,允许有效分析仅在子空间中显现的异常。
•我们引入了粒度相对熵的概念,从粒度的不确定性角度分析异常。我们的理论分析表明,这种新度量有效地捕捉了异常的特征,同时具有理想的属性。
•在24个真实世界数据集上的广泛实验评估表明,所提出的GREAD方法的表现优于或与最先进的方法相当。