基于自编码器与单类支持向量机的深度单类分类器在网络异常检测中的创新应用与性能优化
【字体:
大
中
小
】
时间:2025年10月06日
来源:Frontiers in Computer Science 2.7
编辑推荐:
本综述系统探讨了一种结合自编码器(AE)与单类支持向量机(OC-SVM)的深度单类分类模型(OCSVM-AE)在网络异常检测(NIDS)中的应用。研究聚焦于仅使用正常网络流量数据进行训练的半监督学习框架,通过OC-SVM生成的决策分数增强AE的特征空间,显著提升了模型对未知攻击的检测能力(F1分数提升至0.872,AUC达0.974)。同时提出了一种启发式参数调优策略,有效解决了OC-SVM超参数(如nu)在无标签异常数据情况下的优化难题,为实际部署提供了重要技术支持。
网络入侵检测系统(NIDS)在现代网络安全防御体系中扮演着关键角色,其核心任务是在网络边缘识别恶意流量,保护联网设备免受未授权入侵和安全漏洞的侵害。随着物联网(IoT)和复杂网络环境的快速发展,传统基于签名的NIDS方法面临高误报率和对新型攻击泛化能力不足的挑战。此外,获取标记的异常数据因隐私限制、标注成本高和专业性要求而变得困难。近年来,深度学习模型因其能够学习复杂的非线性模式,在NIDS中的应用显示出显著进展。然而,这些方法通常依赖于在训练期间同时使用正常和恶意网络流量,这在实际环境中往往不可行。
在此背景下,异常检测方法逐渐成为研究热点,其仅使用正常数据训练模型,任何偏离正常分布的行为都被分类为异常。这种方法基于一个关键假设:未知恶意活动的模式更类似于过去的攻击而非正常事件。单类分类技术作为半监督学习的一种形式,仅使用正常标记数据实例进行训练,然后在测试阶段对实例进行分类。其优势在于无需安全专家收集和标记恶意流量,也无需依赖基准数据集进行模型训练。
自编码器(AE)作为一种神经网络模型,特别适用于处理非线性、高维数据集,其通过编码器将输入数据压缩到低维潜在表示,再通过解码器重构原始输入。在单类分类设置中,AE仅使用正常数据训练,最小化重构误差,异常则通过较高的重构误差被识别。然而,AE假设异常会产生高重构误差并不总是成立,部分异常可能与正常事件共享相似模式,导致小重构误差,或者AE过度泛化,将异常输入映射到与正常相似的潜在表示。
单类支持向量机(OC-SVM)是另一种广泛使用的单类分类方法,其训练目标是找到一个半空间,尽可能包含大多数正常事件,并最大化与原点距离。测试时,落在半空间内的数据点被分类为正常,否则为异常。OC-SVM输出决策值,即测试事件与半空间边界的距离。但其超参数(如权衡参数nu)的选择是一个挑战,常用调优方法(如网格搜索)需要两类标签信息,本质上成为监督方法。
本研究提出了一种深度单类分类模型OCSVM-AE,其训练仅基于流式的正常网络流量数据,旨在在推理阶段识别攻击。该异常检测模型包括两个步骤:OC-SVM和深度AE。OC-SVM利用其拓扑结构为每个流量生成决策分数,这些分数随后作为输入特征空间的一部分纳入AE。这种方法增强了AE检测偏离正常模式事件的能力。
此外,研究提出了一种启发式方法,仅基于单类数据调整OC-SVM的权衡参数,实现了与需要两类标记数据的网格方法相当的性能。在基准网络入侵数据集UNSW-NB15上的实验结果表明,OCSVM-AE对未见攻击表现良好,且比传统和基于深度学习的单类分类器更有效。
该方法对数据分布没有特定假设,使其具有广泛适用性,并可作为基于签名的入侵检测系统的补充工具。模型的主要贡献包括:提出了一种两步深度分类器,通过考虑OC-SVM的拓扑特性增强AE的性能;提出了一种半监督启发式方法调优OC-SVM的权衡参数;在UNSW-NB15v2数据集上评估了该方法,证明了其在不同攻击类型上的有效性;与传统和深度异常检测模型进行了性能比较,显示其更优的检测能力。
单类分类方法在NIDS中的应用面临标记异常数据有限的挑战。代表性方法包括OC-SVM、局部离群因子(LOF)和隔离森林(IF)。近年来,深度学习模型如AE被广泛采用,例如Kitsune使用AE集合进行在线入侵检测,Meidan等应用深度AE检测IoT僵尸网络攻击。Ortega-Fernandez等专注于使用深度AE检测工业控制系统中的DDoS攻击。Zavrak和Iskefiyeli使用变分自编码器(VAE)在CICIDS2017数据集上检测异常,发现VAE在大多数情况下优于AE和OC-SVM。
混合方法结合AE与附加层也成为研究趋势,如Mhamdi等首先训练AE表示正常流量模式,然后将压缩数据作为特征输入OC-SVM。Gong等引入了记忆增强自编码器(MemAE),通过记忆模块学习正常数据的原型元素。Sarhan等使用深度支持向量数据描述(Deep-SVDD)将输入特征映射到低维嵌入,然后使用基于直方图的离群分数进行异常检测。
图神经网络(GNN)在异常检测中展现出强大能力,如LUNAR整合经典局部异常检测技术与基于图的学习。DynKDD将基于时间的图快照纳入NSL-KDD数据集,捕捉网络行为随时间演变。然而,GNN在异常检测中的应用仍有限。
超参数优化是单类分类方法的主要挑战。许多研究虽标记为半监督,但仍依赖两类标记数据进行调优,限制了其在实际场景中的泛化能力。AE可通过在保留验证集上评估重构能力进行微调,使用均方误差(MSE)等指标。而OC-SVM的超参数调优则较复杂,需确定核函数和权衡参数nu。Xiao等表明,当采用高斯核时,样本映射到OC-SVM超平面的归一化距离有效反映到包围表面的距离。对于nu,可用启发式策略较少,一些研究假设训练数据全为正常事件设置nu=0,但这在训练集包含噪声或误标记实例时可能不适用。Ratsch等提出基于异常值足够远离正常样本的启发式方法,但在样本间无清晰边界时可能给出平凡输出。Ghafoori等提出无监督启发式方法,使用肘部法的变体优化核函数的缩放参数和nu。
OCSVM-AE方法集成了两个主要组件:OC-SVM和深度AE。OC-SVM学习将良性流量包围在紧密边界内,产生决策分数指示样本属于正常类的置信度。AE接收增强的特征向量作为输入,包括原始特征空间和OC-SVM产生的决策分数。这种架构旨在利用两种模型的优势:OC-SVM适用于学习良性行为的紧凑表示,而无需异常数据;提取的决策分数在原始特征难以建立清晰类边界时尤为有价值;AE能够学习输入的压缩表示,并通过重构误差检测偏离正常模式的情况。
OC-SVM的训练目标是找到决策函数f(x),对目标区域内的样本返回正值,否则返回负值。其通过核函数将数据映射到特征空间,使用高斯核函数表达样本间相似性。决策函数形式为f(x) = ΣαiK(xi, x) - ρ,其值称为决策分数,表示每个输入与学习边界的符号距离。
AE由编码器和解码器组成,编码器将输入映射到低维潜在表示,解码器从压缩形式重构原始输入。训练目标是最小化原始输入与重构之间的差异,通常使用均方误差损失函数。通过最小化正常数据的重构误差,AE学习捕获训练集的特征模式。在测试阶段,异常通过显著更高的重构误差被识别。
OCSVM-AE模型首先使用OC-SVM计算决策分数,然后将这些分数作为额外特征输入AE。决策分数提供了关于正常事件与恶意活动分离程度的额外信息,增强了模型的判别能力。增强的特征向量迫使正常样本的编码更接近正常潜在空间,而异常则更远,从而导致正常样本的重构误差减小,异常的重构误差增大。
实验在模拟环境中进行,使用UNSW-NB15数据集的NetFlow格式版本,包含2,390,275个流量,其中96.02%为良性,3.98%为恶意,覆盖多种攻击类型。数据预处理包括提取数值特征、移除NaN和无限值、删除常数和准常数特征、使用最小-最大缩放归一化、以及基于互信息(MI)的特征选择,最终保留18个特征。
评估指标包括检测率(DR)、误报率(FPR)、F1分数、几何平均数(GM)、平衡准确度(BA)和AUC-ROC。数据集按80-20比例分割训练和测试集,良性流量进一步分割出20%用于验证。
模型性能通过功率律缩放分析,显示泛化误差随数据集大小增加而减少,遵循指数为-0.55的功率律。基于此,选择包含119,515个样本的子集D4作为参考数据集。
OC-SVM启发式策略评估显示,平均决策分数作为nu的函数呈现三个阶段:初始增加阶段(PH-1)、稳定阶段(PH-2)和下降阶段(PH-3)。通过稳定性指数(SI)识别最优nu值,其在多数情况下与高分类性能区域一致。
与基线模型比较包括LOF、OC-SVM、AE、VAE、Deep-SVDD和LUNAR。OCSVM-AE在多数指标上优于传统和深度基线,尤其在FPR(0.046)和AUC(0.974)上表现最佳。在不同攻击类型的单独实验中,OCSVM-AE的AUC分数持续竞争性或更优,显示其对多样攻击的鲁棒性。推理时间分析显示,OCSVM-AE每流测试时间为1.13毫秒,虽高于轻量模型,但仍处于可接受范围。
本研究贡献在于将OC-SVM的几何建模信号集成到AE异常检测流程中,以及使用仅良性流量进行OC-SVM超参数nu的半监督优化。增强的特征向量可模块化集成到其他最先进异常检测模型,如VAE、收缩AE或记忆增强AE。近期无监督聚类进展(如结合模糊聚类与图卷积网络)可能进一步改进异常检测。所提指数为无标记恶意数据场景提供了实用替代方案,支持主动安全系统。未来工作包括优化检测阈值(如极值理论)和处理包级数据或时间序列。
OCSVM-AE模型结合OC-SVM和AE,利用OC-SVM的决策分数增强AE的特征空间,显著提升检测性能。实验证明其在不同攻击类型上的有效性,泛化误差随数据集大小按功率律减少。启发式策略实现了与监督设置相当的
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号