《Knowledge-Based Systems》:MAF: Multi-Modal Adaptive Fusion for Anomaly Detection in Attributed Graphs
编辑推荐:
多模态自适应融合异常检测框架MAF通过冲突感知的节点自适应融合、跨模态相关性正则化和迭代反馈优化,有效解决图数据中结构、属性、语义模态的伪装异常问题,实验验证其优于现有方法。
Eshetu Gusare|He Li|Jianbin Huang|Jaesoo Yoo
西安电子科技大学计算机科学与技术系,中国陕西省西安市太白南路2号,710071
摘要
在属性图中进行异常检测本质上具有挑战性,因为伪装的不规则性只有通过结构、上下文和潜在模态的复杂相互作用才能显现出来。尽管在欺诈检测、网络安全和医疗保健等关键任务领域具有深远的影响,但现有方法仍存在三个主要局限性:(1)孤立模态分析:单模态检测器忽略了跨模态依赖性;(2)静态或刚性的融合:大多数多模态方法通过直接连接来融合特征,缺乏自适应的冲突解决或互补信号增强;(3)缺乏迭代优化:当前模型无法自适应地重新加权模态,从而错过了微妙但重要的异常。为了克服这些缺陷,我们提出了MAF(多模态自适应融合框架),用于属性图中的异常检测。首先,我们采用图卷积网络(GCNs)、自注意力机制(SAMs)和图自动编码器(GAEs)来捕获结构、上下文和潜在异常,同时保持模态间的依赖性。其次,我们设计了一个具有冲突意识的自适应融合模块,该模块利用注意力机制和规则化引导的优化来协调异构信号并增强共识。第三,我们引入了一个基于反馈的优化检测机制,该机制根据异常置信度迭代地重新加权模态,从而恢复微妙的不规则性。通过将伪装异常检测重新定义为自适应的跨模态对齐问题,并提供关于融合稳定性和检测一致性的理论保证,MAF显著提高了鲁棒性和理论基础。在真实世界数据集上的广泛实验表明,其性能优于现有的最先进方法,为属性图中的自适应多模态异常检测树立了新的标准。
引言
图中的异常检测是数据挖掘和机器学习中的一个基本问题,在欺诈检测[1]、[2]、[3]、网络安全监控[4]、[5]、社交平台上的错误信息分析[6]、[7]以及生物医学或临床发现[8]、[9]、[10]等领域有广泛的应用。在这些场景中,异常通常对应于恶意实体、协调攻击或罕见但关键的事件,其早期检测对系统可靠性和公共安全至关重要。
与传统的表格数据不同,真实世界的图数据本质上是属性化的和多模态的。节点不仅通过它们的连接模式来表征,还通过来自长距离交互的丰富属性信息和语义或上下文信号来表征[11]、[12]。这种多模态性大大丰富了表示能力,但同时也使得异常检测变得更加复杂;异常行为可能表现在结构、属性、语义上,或者最具挑战性的是,在这些模态之间的不一致性[13]、[14]。
现有的图异常检测(GAD)方法往往专注于单一的表示视角。图卷积网络(GCNs)[15]、[16]、[17]、[18]在识别嵌入在结构不规则邻域中的节点方面很有效,但当异常节点采用局部一致的连接模式时往往失败。图自动编码器(GAEs)和基于重建的方法[19]、[20]、[21]、[22]对属性偏差敏感,但当异常模仿大多数属性分布时可能会忽略结构不规则性。基于注意力和Transformer风格的模型[23]、[24]、[25]能够捕捉长距离的语义偏差,但可能会忽视明显的局部故障。因此,每种范式都存在内在的模态偏见,导致某些类型的异常系统性地未被检测到。
现实世界中的异常通常利用这种模态偏见来逃避检测。结构异常的节点可能用良性属性伪装自己(类型A),属性异常值可能嵌入在常见的结构模式中(类型B),语义异常可能在局部看起来正常但在上下文语义上有所不同(类型C),当各个模态看起来正常但它们的联合行为显示出不一致性时可能出现跨模态矛盾(类型D)。这些复杂且相互依赖的异常模式仍然具有挑战性:它们通常对单模态检测器不可见,而且刚性融合策略处理得不好。这激发了一种统一的方法,可以在一个连贯的检测框架内协调和整合多种模态(见图1和2(a,b))。一些最近的工作尝试通过特征连接[21]、[26]、启发式或均匀加权[27]、[28]或多视图增强方案[29]、[30]、[31]来缓解单模态的局限性。虽然这些方法在某些情况下提高了鲁棒性,但它们通常依赖于固定的或全局学习的融合策略。因此,它们无法适应节点间模态的异质可靠性,也无法明确地处理模态之间的矛盾。当模态不一致时,现有的融合方案倾向于平滑或抑制这种不一致性,而不是将其视为有信息量的。
这些观察表明当前图异常检测研究存在一个根本性的差距:缺乏在节点级别明确建模和解决跨模态不一致性的机制。
为了解决这一差距,我们提出了多模态自适应融合(MAF),这是一个端到端的框架,将结构、属性和语义模态视为互补但可能存在冲突的证据来源。MAF不是假设模态之间的一致性,而是明确考虑它们的不一致性,并利用这种不一致性来指导异常推断。该框架整合了三种专门针对模态的编码器:基于GCN的结构编码器、基于自注意力的语义编码器(SAM)和捕获潜在属性-拓扑流形的图自动编码器,但其贡献在于如何整合和优化这些表示。
具体来说,MAF引入了三种关键机制。首先,一个具有冲突意识的自适应融合门(CAFG)根据学习到的表示以及测量的跨模态不一致性(MCMI)分配节点特定的模态权重(NSMWs),在出现冲突时允许降低不可靠信号的权重。其次,一个跨模态去相关化规则器(CMDR)防止表示崩溃,并保持跨模态的互补异常证据。第三,一个迭代反馈优化(IFR)过程将特定于模态的嵌入(MSEs)对齐到共识表示(CR),并有一个动态停止标准(DSC),在异常排名稳定后停止优化。动机直观洞察。就像学生在某一科目上表现出色但无法实现平衡表现的情况(图2a)一样,没有一种单模态图检测器是普遍可靠的:GCN能够捕捉结构不规则性,但忽略了上下文不一致性;GAE能够检测属性偏差,但对关系异常视而不见;SAM能够识别全局上下文异常值,但忽略了局部结构或属性故障。因此,每种编码器都存在内在的模态特定盲点,使得伪装异常得以持续存在。为了解决这个问题,MAF引入了一种自适应的、逐节点的融合机制,类似于协调教学以强制跨学科的平衡学习(图2b),动态地整合了GCN、GAE和SAM的互补优势,从而能够稳健地检测到单个模态内部或跨模态交互产生的异常。
通过这种设计,MAF将多个特定于模态的编码器从独立的检测器转变为一个协调的推理系统,能够检测到通过微妙的跨模态矛盾表现出来的伪装异常。
本工作的主要贡献总结如下:
•我们将图异常检测表述为在跨模态不一致性下的冲突解决问题,并提出了MAF这一原理性的框架来解决它。
•我们引入了一种具有冲突意识的、逐节点的自适应融合机制,该机制明确地将跨模态不一致性纳入推断过程中。
•我们引入了一个跨模态去相关化规则器和一个排名稳定的迭代优化机制,以确保融合的鲁棒性和可解释性。
•我们进行了全面的实验和消融研究,证明了所提出框架的有效性、效率和鲁棒性。
本文的结构如下:第2节回顾相关工作;第3节介绍融合稳定性和检测一致性的理论分析;第4节详细说明方法论;第5节介绍实验;第6节总结关键发现和未来方向。相关工作
图异常检测(GAD)已经从传统的统计公式发展到深度表示学习,最近又发展到多视图和多模态融合框架。本节回顾了这些范式,重点介绍了异常证据是如何整合的,并强调了激发我们基于冲突驱动的MAF框架的未解决局限性。
理论分析:稳定性和一致性保证
本节为提出的MAF框架建立了正式的理论保证。具体来说,我们证明了(i)具有冲突意识的融合过程的稳定性以及(ii)在迭代优化下的异常检测一致性。我们首先陈述了所需的假设和定义,然后是两个带有严格证明的核心定理。
方法论
所提出的多模态自适应融合(MAF)框架旨在检测在结构拓扑、节点属性、全局语义以及跨模态矛盾中表现出来的异常。与将模态输出视为一次性的相互一致信号进行组合的单模态检测器或固定融合方案不同,MAF将跨模态不一致性视为一类可观察现象,并利用它来指导节点级别的可靠性分配、互补性保持和迭代实验
实验评估旨在严格评估所提出的MAF框架的有效性、机制有效性、可解释性和计算实用性。我们围绕六个明确的研究问题(RQs)来构建实验:•RQ1:MAF是否在异构属性图数据集上一致性地优于现有的图异常检测(GAD)基线?
•RQ2:MAF的哪些架构组件是必要的(编码器、自适应融合、去相关化)
结论和未来方向
我们提出了多模态自适应融合(MAF),这是一个用于属性图中异常检测的统一框架,它通过轻量级的自适应融合机制整合了局部结构聚合、关系显著性建模和全局流形规范化。该框架结合了特定于模态的编码器、逐节点的门控、跨模态去相关化和由动态停止规则控制的收缩反馈优化步骤。在六个基准数据集上,MAF取得了
CRediT作者贡献声明
Eshetu Gusare:撰写——审稿与编辑、撰写——原始草稿、可视化、方法论、形式分析、数据整理、概念化。He Li:撰写——审稿与编辑、可视化、监督、资金获取。Jianbin Huang:撰写——审稿与编辑、可视化、监督、资金获取。Jaesoo Yoo:撰写——审稿与编辑、可视化、数据整理、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
作者衷心感谢匿名审稿人提供的有见地的反馈和建设性建议。该工作得到了STI 2030重大项目(2021ZD0201300)的支持。