
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于优化机器学习算法的数据驱动网络入侵检测系统性能突破研究
【字体: 大 中 小 】 时间:2025年08月10日 来源:Franklin Open CS1.4
编辑推荐:
本研究针对网络安全领域面临的复杂攻击检测难题,通过系统评估决策树(DT)、随机森林(RF)等机器学习算法在CSE-CIC-IDS2017数据集上的表现,创新性提出动态集成欠采样增强(DEUB)技术。结果显示树基方法取得0.9997准确率与1.00 AUC值,证实简化模型可实现最优入侵检测性能,为实时网络安全防护提供高效解决方案。
随着信息通信技术(ICT)的快速发展,网络攻击手段日益复杂化,传统基于签名的检测系统(Signature-based detection)难以应对新型威胁。尽管异常检测系统(Anomaly-based detection)展现出更好的适应性,但其高误报率问题始终制约着实际应用效果。在此背景下,机器学习(ML)技术为网络入侵检测系统(NIDS)的发展带来了新机遇,但数据质量、算法选择与模型解释性等问题仍是亟待突破的瓶颈。
KolaDaisi大学数学与计算科学系的研究团队在《Franklin Open》发表重要研究成果,通过系统比较决策树(DT)、随机森林(RF)等五种算法在CSE-CIC-IDS2017数据集上的表现,创新性提出动态集成欠采样增强(DEUB)技术。研究证实优化后的树基方法可实现0.9997准确率与1.00 AUC值,其性能甚至超越深度学习模型,为构建高效实用的网络安全防护体系提供了新范式。
研究采用多阶段技术路线:首先对包含3,119,345条记录的CSE-CIC-IDS2017数据集进行去重、缺失值处理等预处理;随后开发DEUB算法结合AdaBoost实现动态样本平衡;最终通过70:30比例划分数据集,系统评估DT、RF、K近邻(K-NN)、梯度提升(GB)和逻辑回归(LR)的分类性能。
在数据预处理环节,研究团队剔除流量ID(Flow ID)、IP地址等无关特征后,将特征维度从85降至73。通过DEUB算法创新性地实现动态样本平衡,该技术集成自适应增强(AdaBoost)与动态欠采样,在每轮迭代中自动调整类别分布,有效解决了原始数据中良性流量占比81.4%的严重失衡问题。
实验结果部分显示,所有树基算法均展现卓越性能:DT和RF在平衡数据集上分别获得0.9997和0.9996的准确率,且精确度(Precision)均超过0.99。值得注意的是,四种算法(DT、RF、KNN、GB)的受试者工作特征曲线(ROC)完全重叠,均达到1.00的曲线下面积(AUC),显著优于逻辑回归的0.87。对比实验证实数据平衡处理使RF的F1分数从0.9984提升至0.9989,验证了DEUB技术的有效性。
与既有研究的横向对比更具说服力:相较于采用深度自编码器+卷积神经网络(Deep AE+CNN)的研究,本工作的RF+DEUB组合将精确度从0.988提升至0.9991;相比主成分分析+极端树(PCA+ET)方法,F1分数提高至0.9992。这些突破主要归因于创新的数据清洗策略,包括去除重复样本和恒定值特征等关键步骤。
研究结论指出,经过优化的树基算法不仅实现最先进的检测性能,更具备模型简洁、计算高效的优势。该成果的重要意义在于:首先,证实简单模型通过精细优化可超越复杂深度学习架构;其次,DEUB技术为处理类别不平衡数据提供了新思路;最后,完美AUC值表明模型在不同决策阈值下均保持稳健性能。未来研究可进一步探索模型对抗攻击的鲁棒性,以及面向实时检测的边缘计算部署方案。这项研究为网络安全领域树立了新标杆,其方法论对其它不平衡数据分类任务也具有重要参考价值。
生物通微信公众号
知名企业招聘