基于多种机器学习模型在UNSW-NB15数据集上利用新型混合IGL1特征选择方法实现高性能入侵检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Big Data and Cognitive Computing》：A Novel Hybrid IGL1 Feature Selection Method for High-Performance Intrusion Detection on the UNSW-NB15 Dataset Using Multiple Machine Learning Models

【字体：大中小】 时间：2026年06月09日 来源：Big Data and Cognitive Computing 4.4

编辑推荐：

　　入侵检测系统（Intrusion Detection Systems, IDSs）对于保障现代网络安全基础设施仍然至关重要，然而网络流量数据往往具有高维特性，且包含冗余或弱信息量的属性。本研究提出了一种混合特征选择方法，将信息增益（Information Ga

入侵检测系统（Intrusion Detection Systems, IDSs）对于保障现代网络安全基础设施仍然至关重要，然而网络流量数据往往具有高维特性，且包含冗余或弱信息量的属性。本研究提出了一种混合特征选择方法，将信息增益（Information Gain, IG）与L1正则化选择（L1-regularized selection）相结合，以构建UNSW-NB15数据集紧凑且具信息量的特征表示。该方法在防泄漏（leakage-aware）流程中先后应用基于相关性的过滤和基于稀疏性的精炼，其中预处理和特征选择均完全从训练数据中导出。在缩减的六类配置下，所提方法将42个候选预测变量减少至21个流量相关特征。在多个分类器中，随机森林（Random Forest）结合IGL1取得了最佳性能，准确率为0.8432，F1-分数（F1-score）为0.8376，而多层感知器（Multi-Layer Perceptron, MLP）和梯度提升（Gradient Boosting）也保持了竞争力。这些发现表明，所选特征保留了稳定的判别模式，而非偏袒单一分类器。总体而言，该研究强调了防泄漏评估对于产生可靠、可重复的入侵检测结果的重要性。未来工作将把分析扩展至完整的多类设置，并考察在实时或流式环境中的适用性。

该研究发表于《Big Data and Cognitive Computing》期刊，聚焦于网络入侵检测中的特征选择问题。随着现代网络环境面临的攻击日益多样化且复杂化，包括侦察、漏洞利用、恶意软件传播以及加密恶意流量等，入侵检测系统必须在保持强检测能力的同时具备计算效率，以满足实时或近实时部署需求，尤其是在资源受限、延迟敏感的环境中。机器学习技术因其能从大规模异构网络流量数据中捕获复杂模式而被广泛应用于入侵检测领域。然而，这类系统面临高维异构数据与持续演变流量模式等挑战，这与大数据分析中可扩展高效学习机制的需求相契合，也与认知计算范式中自适应学习和智能决策的理念一致。在此视角下，特征选择不再仅仅是降维步骤，而是从复杂环境中提取有意义信息、提升模型可解释性和实现高效学习的关键过程。

UNSW-NB15数据集作为广泛采用的基准数据集，包含流级、内容级和时间相关属性，但并非所有特征对判别同等重要，部分特征可能引入冗余或噪声，导致泛化性能下降、训练时间增加及决策边界不稳定。现有特征选择方法主要分为过滤法（filter）、包装法（wrapper）和嵌入法（embedded）三类。过滤法如信息增益、卡方检验和互信息等计算高效，但通常独立评估特征，难以捕捉变量间交互作用；包装法如递归特征消除（Recursive Feature Elimination, RFE）可提供定制化特征子集，但需重复模型训练，计算成本高昂；嵌入法如L1正则化将特征选择融入模型训练并促进稀疏性，但其效果可通过初始过滤阶段增强。混合特征选择策略因能融合多种方法优势而受到关注，但现有方法仍存在迭代计算开销大、基于树的特征重要性易受采样变异性和特征相关性影响、以及评估分类器数量有限等局限。

基于上述背景，研究人员提出信息增益与L1正则化（Information Gain and L1-Regularization, IGL1）混合特征选择框架，旨在通过更简单、更可复现的工作流程，获得精简而具信息量的特征表示。该框架首先利用信息增益保留全局相关特征，继而使用L1正则化线性支持向量分类器（L1-regularized LinearSVC）在缩减后的候选空间上进行稀疏驱动排序，采用受控的top-k保留策略而非纯粹的零系数消除规则，并在严格的防泄漏实验流程中评估所得特征子集在多个分类器家族中的性能。

研究所用关键技术方法包括：基于UNSW_NB15_training-set.csv数据集（175,341条记录）构建缩减六类设置（排除analysis、backdoor、shellcode和worms四类低频攻击类别，移除label和id两个非行为属性）；采用分层划分（stratified splitting）将数据分为68%训练集、16%验证集和16%测试集；对分类属性proto、service和state采用基于训练数据的二元编码（将主导类别映射为1，其余映射为0）；使用MinMaxScaler对数值属性进行归一化（仅拟合训练数据）；IGL1两阶段特征选择（信息增益阶段保留31个特征，L1正则化LinearSVC稀疏排序阶段保留最终21个特征）；以及多层感知器（MLP）、梯度提升（Gradient Boosting）、随机森林（Random Forest）三个主要分类器和支持向量机（Support Vector Machine, SVM）、K近邻（K-Nearest Neighbors, KNN）两个基线模型的评估体系。

研究结果表明：

**分类结果与IGL1特征子集**：随机森林结合IGL1表现最优，准确率达0.8432，F1-分数为0.8376，且训练时间显著少于MLP和梯度提升。MLP结合IGL1的F1-分数为0.8259，梯度提升结合IGL1的准确率为0.8389、F1-分数为0.8218。基线评估中，KNN结合IGL1的准确率为0.8156、F1-分数为0.8181，而SVM结合IGL1表现最低，准确率为0.7705、F1-分数为0.7491。这说明IGL1特征子集在基于树的集成学习和神经模型中更具优势，但跨分类器家族仍具可用性。

**最佳模型的混淆矩阵分析**：随机森林结合IGL1的混淆矩阵呈现主导的对角线结构，表明该模型能正确分类大多数样本，所保留的21个特征足以区分正常（Normal）、通用攻击（Generic）、漏洞利用（Exploits）、模糊测试（Fuzzers）、拒绝服务（DoS）和侦察（Reconnaissance）六类。但部分类别间因流量特征重叠仍存在误分类。

**最佳模型的ROC曲线分析**：随机森林结合IGL1的一对剩余（one-vs-rest）ROC曲线均明显高于随机分类基线，表明该特征子集支持概率层面的类别分离，保留了与网络流量行为变化相关的判别信息。

**FPR与FNR分析**：随机森林结合IGL1在三类主要模型中具有最低的假阳性率（False Positive Rate, FPR）和假阴性率（False Negative Rate, FNR），在减少误报与避免漏检之间取得最佳平衡。MLP和梯度提升的FPR值也保持较低水平，但FNR略高于随机森林。

**IGL1特征选择分析**：最终保留的21个特征包括dur、service、state、spkts、dpkts、sttl、dttl、sload、dload、sinpkt、tcprtt、synack、smean、dmean、ct_srv_src、ct_state_ttl、ct_dst_ltm、ct_src_dport_ltm、ct_dst_sport_ltm、ct_src_ltm和ct_srv_dst。其中，smean、sload、dmean和dur等信息增益值较高，而ct_srv_dst、sinpkt、state和service等L1稀疏重要性得分突出。这些特征涵盖流量强度与体积描述符（如sload、dload、smean、dmean、dur）、状态与TTL相关变量（如state、sttl、dttl、ct_state_ttl）、短期历史连接变量（如ct_srv_src、ct_srv_dst、ct_dst_ltm、ct_src_ltm等）以及时序敏感特征（如sinpkt、tcprtt、synack），共同构成紧凑且语义信息丰富的入侵检测特征表示。

**与先前研究的比较评估**：与Yin等人提出的IGRF-RFE方法等基准相比，MLP和梯度提升结合IGL1的结果略低于该基准，但随机森林结合IGL1在更严格的防泄漏配置下取得了略高的准确率和F1-分数。由于比较基于文献而非相同实验环境下的重复配对运行，未进行正式统计显著性检验，结果应解读为具有竞争力而非统计意义上的显著优势。IGL1的主要附加价值在于紧凑特征子集、透明防泄漏流程以及跨多个分类器家族保持稳定性能的能力。

研究讨论部分强调，防泄漏评估协议对结果的可靠性至关重要。将数据依赖型转换严格限制于训练数据，避免了过度乐观的估计，提供了更贴近实际部署条件的性能评估。研究局限性包括：六类缩减配置限制与完整标签空间研究的可比性；未详细检验所选特征在不同数据划分或扰动下的稳定性；未系统探索替代预处理策略或仅基于训练数据的类别平衡方法。未来研究方向包括扩展至完整多类设置、进行更正式的特征稳定性分析，以及考察该框架在流式或实时入侵检测环境中的适用性。为支持透明度和可重复性，完整的实现细节和实验流程已公开于专用代码仓库。

联系信箱：

粤ICP备09063491号

热点排行