编辑推荐:
为解决入侵检测系统(IDSs)中类别不平衡和高维数据对模型性能与可解释性的挑战,研究人员开展 CTGAN-ENN 混合方法研究。该方法结合 CTGAN、ENN 及特征选择(FS),在三类数据集上准确率达 99.99% 等,提升了 IDS 性能与可解释性。
随着计算机应用、云计算和物联网技术的蓬勃发展,网络安全面临的挑战日益严峻。网络攻击的多样性与数据的海量性,使得传统入侵检测方法难以有效应对,尤其是零日攻击检测能力不足和高误报率问题突出。与此同时,机器学习(ML)方法在入侵检测中的应用虽展现潜力,但类别不平衡问题严重 —— 正常流量数据占比极高,攻击流量作为少数类难以被有效识别,且高维数据导致模型可解释性差,黑盒特性让安全团队难以信任模型决策。如何在提升检测准确率的同时,让模型决策过程透明可解释,成为当前入侵检测领域亟待突破的关键瓶颈。
为攻克这些难题,相关研究人员开展了一项创新研究。其提出的 CTGAN-ENN 混合框架,为入侵检测领域带来了新的解决方案,该研究成果发表在《Future Generation Computer Systems》。
研究中采用的关键技术方法主要包括:
- 数据预处理与采样:利用编辑最近邻(ENN)对多数类进行欠采样,以减少数据重叠和噪声;同时通过条件表格生成对抗网络(CTGAN)为少数类生成逼真的合成样本,平衡数据集。
- 特征选择(FS):运用两种过滤式(一致性子集选择 CON、皮尔逊相关 C)和两种包裹式(Boruta、递归特征消除 RFE)特征选择技术,优化特征集。
- 模型构建与评估:采用随机森林(RF)、XGBoost(XGB)、轻量级梯度提升机(LGBM)和深度神经网络(DNN)四种机器学习算法作为分类器,并通过七种性能指标(如准确率等)进行评估。
- 可解释性分析:结合局部可解释模型无关解释(LIME)、SHAP 值(SHAP)和全局代理模型(GS),从局部和全局层面解析模型决策逻辑。
研究结果
数据平衡与采样方法对比
通过在 CICIDS2018、CIC-ToNIoT、NF-UNSW-NB15-v2 三个数据集上的实验,CTGAN-ENN 框架在平衡类别分布方面表现显著。与传统过采样方法(SMOTE、ADASYN)和其他生成对抗网络(WGAN、WGAN-GP)相比,其生成的少数类样本更贴近真实数据分布,模型准确率分别达到 99.99%、99.64% 和 99.26%,显著优于对比方法。
特征选择技术效果
过滤式和包裹式特征选择技术的对比显示,包裹式方法(如 Boruta)在优化特征子集上更具优势,能有效降低特征维度的同时保留关键入侵特征。通过 Scott-Knott 分析确定了最优特征选择与分类器组合,验证了特征降维对提升模型效率和可解释性的重要性。
合成数据比例优化
实验表明,当 CTGAN 生成的合成数据比例在 60%-80% 区间时,模型检测准确率达到峰值。这一结果为实际应用中确定最优数据增强策略提供了量化依据,尤其在特征集精简后,该比例区间的合成数据仍能保持高检测性能。
可解释性分析
通过 SHAP、LIME 和 GS 方法,研究揭示了模型对关键特征(如网络流量统计特征、协议类型等)的依赖程度。全局代理模型通过规则提取,清晰展示了不同攻击类型的决策边界;局部解释则通过实例级分析,解释了单个样本分类的依据,显著提升了模型透明度,为安全人员理解攻击检测逻辑提供了直观支持。
结论与意义
本研究提出的 CTGAN-ENN 框架成功融合了生成对抗网络、特征选择和可解释性技术,在解决入侵检测中类别不平衡与高维数据挑战方面取得突破性进展。实验结果不仅证明了该方法在检测准确率上的显著优势,更通过多层次可解释性分析,打破了传统机器学习模型的 “黑盒” 壁垒,为工业界和学术界提供了兼具高性能与高可信度的入侵检测解决方案。其创新点在于首次系统性结合生成式 AI 与特征选择技术,并通过多维度评估验证了模型的泛化能力,为后续研究在物联网安全、实时入侵响应等领域的应用奠定了坚实基础。该研究成果对提升网络安全防护水平、推动可解释人工智能(XAI)在关键基础设施保护中的落地具有重要理论和实践意义。