基于改进正弦余弦算法优化的混合CNN-XGBoost模型在云安全入侵检测中的应用研究

【字体: 时间:2025年09月19日 来源:Connection Science 3.4

编辑推荐:

  本文提出了一种基于改进正弦余弦算法(IV-SCA)优化的混合卷积神经网络(CNN)与极限梯度提升(XGBoost)模型,用于提升云环境下的入侵检测效能。该研究通过融合CNN的特征提取能力与XGBoost的分类优势,结合改进的元启发式优化算法(metaheuristics optimisation)对XGBoost超参数进行自适应调优,在TON IoT真实数据集(Windows 7与Windows 10环境)上分别实现了98.67%和96.67%的检测准确率,显著优于传统SCA、人工蜂群算法(ABC)及其他主流优化模型,为云计算(CC)安全提供了高效、自适应的入侵检测系统(IDS)新范式。

  

摘要

云计算(Cloud Computing, CC)作为支撑现代医疗、工业及物联网(IoT)的核心技术,其安全性问题日益突出,尤其是针对网络入侵的检测与分类。传统入侵检测系统(Intrusion Detection System, IDS)常面临误分类问题,例如未能识别真实攻击或将正常流量误判为恶意行为。本研究提出一种结合卷积神经网络(Convolutional Neural Network, CNN)与极限梯度提升(eXtreme Gradient Boosting, XGBoost)的混合模型,通过改进版正弦余弦算法(Sine Cosine Algorithm, SCA)优化XGBoost超参数,显著提升了分类性能。在TON IoT数据集上的实验表明,该模型在Windows 10和Windows 7环境下分别达到96.667%和98.6731%的准确率,优于其他对比算法。

引言

云计算在现代计算科学中扮演着关键角色,但其依赖互联网进行数据传输的特性也带来了与传统计算机网络类似的安全隐患,尤其是入侵检测问题。尽管现有IDS种类繁多,其误分类问题仍导致系统无法准确识别攻击或错误标记正常流量。人工智能(AI)与机器学习(Machine Learning, ML)方法为开发自适应IDS提供了新思路,然而现有研究尚未充分探索混合AI算法在入侵检测中的潜力。超参数调优是AI模型实现最优性能的关键,但传统试错法耗时且低效。元启发式优化算法(metaheuristics optimisation)能够在合理时间内找到近似最优解,本研究据此提出改进SCA算法(IV-SCA),用于优化XGBoost分类器,以提升IDS在云环境中的分类能力。

相关工作

现代云架构的安全问题备受关注,尤其是多提供商环境下的配置错误可能导致严重漏洞。自动化IDS如入侵防御系统(Intrusion Prevention System, IPS)若配置不当,可能错误拦截合法请求或漏检恶意流量。机器学习方法通过数据驱动策略增强了云基础设施的防御机制,例如基于混合重力搜索与粒子群优化(Particle Swarm Optimization, PSO)的IDS实现了99.3%的精确度与准确率。其他研究如基于人工免疫系统的原型、深度神经网络(DNN)与蜘蛛猴优化(Spider Monkey Optimization, SMO)的结合,均在NSL-KDD、CICIDS2017等数据集上取得了超过99%的分类性能。物联网(IoT)设备的多样性增加了安全风险,而混合算法如SSA-ALO在N-BaIoT数据集上实现了99.9%的入侵检测率。这些工作表明,混合模型能有效提升入侵检测性能,减少误分类。

方法

基础正弦余弦算法

正弦余弦算法(SCA)是一种基于三角函数数学特性的元启发式算法,通过随机控制参数引导种群中个体的位置更新。其搜索公式包含正弦和余弦函数两部分,根据随机数阈值选择更新方式。尽管SCA在探索阶段表现优异,但其开发能力不足,尤其在迭代后期难以收敛到精确解。

改进正弦余弦算法

针对SCA的开发缺陷,本研究提出迭代变化SCA(IV-SCA),在算法后期引入萤火虫算法(Firefly Algorithm, FA)的搜索机制以增强开发能力。通过两个控制参数(vs和sm)实现SCA与FA的自适应切换:当迭代次数超过vs(设定为最大迭代次数的1/5)时,算法按概率sm选择SCA或FA搜索;sm值随迭代递减,逐渐偏向FA搜索。该改进在不增加计算复杂度的前提下,显著提升了算法的收敛精度与稳定性。

提出的框架

本研究构建的混合框架由CNN与XGBoost组成:CNN负责从输入数据中提取高维特征(取自倒数第二层密集层的输出),XGBoost则基于这些特征执行最终分类。CNN结构轻量化设计(仅包含1个卷积层、批量归一化、最大池化层及2个密集层),使用分类交叉熵损失函数和Adam优化器,训练10个epoch。XGBoost的超参数(包括学习率、最小子权重、子样本比例等)由IV-SCA优化,优化目标为最大化Cohen’s Kappa系数,以处理数据集不平衡问题。

实验设置

实验采用TON IoT数据集中的Windows 7和Windows 10子集,分别包含7类攻击(如DDoS、注入、密码攻击等)与正常流量。Windows 7数据集含10,000条正常样本与5,980条攻击样本,Windows 10数据集结构类似。评估指标包括准确率、精确度、召回率、F1分数及Cohen’s Kappa系数。对比算法包括SCA、ABC、FA、SSA、HHO、ChOA和RSA,所有算法在相同配置下运行30次独立重复实验。

实验结果与讨论

Windows 7数据集结果

IV-SCA优化的CNN-XGBoost模型在最佳运行中达到98.67%的准确率,显著优于其他算法(SCA为98.65%,RSA为98.63%)。其Cohen’s Kappa系数与分类错误率在所有统计指标(最佳、最差、均值、中位数、标准差)上均表现最优,SSA在稳定性方面略优但精度较低。超参数敏感度分析显示,学习率、最大深度及Gamma值对模型性能影响最大。

Windows 10数据集结果

在Windows 10环境中,IV-SCA模型以96.67%的准确率领先(SCA为96.60%,ChOA与RSA为96.57%),且在所有评估指标上保持一致优越性。收敛曲线与核密度估计图显示IV-SCA具有更快的收敛速度与更高的解质量。

与基线方法对比

IV-SCA模型相比基线方法(如默认XGBoost、CNN-XG无优化、朴素贝叶斯、随机森林及决策树)准确率提升近20%,证实了元启发式优化的有效性。

结果验证与模型解释

Shapiro-Wilk检验证实结果数据符合正态分布,配对t检验表明IV-SCA在统计显著性(α=0.1)上优于所有对比算法。SHAP(Shapley Additive Explanations)分析揭示了特征重要性:Windows 7中关键特征为进程池分页字节、网络发送字节速率等;Windows 10中内存池分页字节、网络包发送速率等影响最大。特征值与目标类的关联性(如内存使用增加可能指示DoS攻击)与实际安全场景一致。

结论

本研究提出的IV-SCA优化混合CNN-XGBoost模型,通过增强SCA的开发能力与自适应搜索机制,显著提升了云环境入侵检测的准确性与鲁棒性。实验证明其在真实数据集上优于现有主流算法,为IDS提供了可解释、高效的新方案。未来工作将扩展该模型到更多数据集与实际部署场景,并探索更多超参数组合的优化潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号