《ARTIFICIAL INTELLIGENCE REVIEW》:CTWA: a novel incremental deep learning-based intrusion detection method for the Internet of Things
编辑推荐:
本研究针对物联网(IoT)入侵检测中模型泛化能力不足、计算资源消耗大及特征冗余等问题,提出了一种基于卷积自编码器(CAE)和时间卷积网络(TCN)的类增量学习新方法CTWA。该方法通过CAE-TCN模块提取数据样本的局部特征,引入残差模块避免梯度消失,并采用权重对齐(WA)技术解决新旧任务间的知识遗忘问题。实验结果表明,在CICIoT2023数据集上,CTWA的准确率、精确率、召回率和F1分数分别达到0.9643、0.9659、0.9643和0.9645,显著优于对比模型,且能有效识别未知攻击类型,为动态物联网环境下的网络安全防护提供了新思路。
随着物联网设备的爆炸式增长,网络安全已成为制约其发展的关键瓶颈。传统的入侵检测系统往往依赖于静态数据集和固定攻击类别,难以应对层出不穷的新型攻击手段。更棘手的是,物联网环境下的流量数据具有动态演化特性,而现有基于深度学习的检测方法(如门控循环单元GRU、深度信念网络DBN等)在面临新攻击类型时,通常需要完全重新训练模型,这不仅对计算资源和存储空间提出极高要求,还可能导致“灾难性遗忘”现象——新知识的学习会严重破坏模型对已有攻击类型的识别能力。这一矛盾在资源受限的物联网设备中尤为突出,亟需一种能够持续学习新攻击类型且不遗忘旧知识的动态检测方案。
针对这一挑战,齐齐哈尔大学王海珍团队在《Artificial Intelligence Review》上发表了一项创新研究,提出了一种名为CTWA的增量深度学习入侵检测方法。该方法巧妙融合了卷积自编码器(CAE)和时间卷积网络(TCN),通过空间与时间特征的双重提取,构建了一个能够持续适应新攻击类型的动态检测框架。
研究的关键技术方法主要包括:1) 利用CAE提取空间特征,并引入残差模块增强梯度流动;2) 采用TCN捕捉时间序列依赖关系,通过膨胀卷积扩大感受野;3) 设计任务特定层共享底层特征表示,使用高斯分布区分新旧任务;4) 应用权重对齐(WA)技术平衡新旧任务的学习;5) 结合交叉熵损失与标签平滑损失优化模型泛化能力。实验使用CICIoT2023和BoTNetIoT两个真实物联网数据集进行验证。
模型框架设计
CTWA模型采用双分支结构,分别通过CAE和TCN并行提取数据的空间和时间特征。
其中CAE引入残差连接解决梯度消失问题,其网络结构包含6个卷积层,通过跳连结构实现数据重构补偿。TCN则采用因果卷积和膨胀卷积机制,确保时间序列建模的时序一致性。两个分支的特征输出进行拼接后,送入增量学习模块进行任务区分和知识融合。
增量学习机制
核心创新在于增量学习模块的设计。该模块通过高斯分布计算样本属于已有任务分布的概率,动态路由到新旧任务头进行处理。
权重对齐技术的应用确保新任务学习过程中不会破坏旧任务的决策边界,最后通过加权融合输出最终分类结果。这种设计使得模型在逐步学习DDoS-ACK、DNS等新攻击类型时,仍能保持对原有良性流量的高精度识别。
损失函数优化
H(q′,p)=(1?ε)H(q,p)+εH(u,p)
该设计通过引入均匀分布噪声,有效缓解模型对标签的过拟合,提升对边缘样本的判别能力。在CICIoT2023数据集上的实验表明,这种损失组合相比单一损失函数能使F1分数提升0.1-0.3个百分点。
参数优化实验
针对卷积核尺寸的调优实验发现,当卷积核尺寸设置为7时,模型在验证集上达到最优性能(准确率0.993,损失值0.028)。
消融实验进一步验证了各模块的贡献:完整CTWA模型相比仅使用CAE或TCN的模型,准确率提升超过6个百分点,证明时空特征联合提取的有效性。
性能对比分析
与SSAE-SOINN、BDPT等最新增量学习方法相比,CTWA在CICIoT2023数据集上准确率达到0.9643,显著优于对比模型(最高超出30.35%)。
特别值得注意的是,模型对DDoS-ICMP和DDoS-TCP等攻击的检测F1分数接近1.0,而对未知攻击类型的检测成功率达到87%以上,体现出强大的零日攻击检测潜力。
该研究通过创新的模型架构设计,成功解决了物联网入侵检测中的三个核心难题:一是通过CAE-TCN的混合特征提取机制克服了传统方法对时空特征建模的不足;二是利用权重对齐和任务路由机制实现了真正意义上的持续学习;三是通过复合损失函数设计提升了模型在类别不平衡场景下的鲁棒性。尽管模型在训练时间上略高于部分对比模型(789.58秒/40轮),但其检测精度和抗遗忘能力的大幅提升,为资源受限环境下的动态安全防护提供了切实可行的技术路径。未来研究方向包括优化小样本场景下的检测性能,以及探索更轻量化的模型部署方案。