通过知识蒸馏和自适应损失函数优化实现可解释的、资源感知的物联网安全模型
《Expert Systems with Applications》:Explainable Resource-Aware IoT Security Model via Knowledge Distillation and Adaptive Loss Function Optimization
【字体:
大
中
小
】
时间:2025年11月24日
来源:Expert Systems with Applications 7.5
编辑推荐:
提出RAID-KL框架,结合KL-JS混合散度损失函数,显著降低物联网入侵检测模型的计算资源消耗,同时保持高检测性能与可解释性。
随着物联网(IoT)设备的广泛应用,网络安全挑战也日益严峻。物联网设备通常具有有限的计算能力和内存资源,这使得它们成为网络攻击的目标,例如僵尸网络、数据外泄和拒绝服务攻击(DoS)。此外,随着连接设备数量的迅速增长,预计到2030年,全球物联网设备数量将超过401亿。这种规模的网络连接需要高效且可靠的网络安全机制。传统的入侵检测系统(IDS)在面对现代网络威胁时表现不佳,而基于机器学习(ML)和深度学习(DL)的算法,尤其是卷积神经网络(CNN)和长短期记忆网络(LSTM),在分析网络流量模式和检测异常行为方面展现出强大的能力。然而,CNN等深度学习模型在资源受限的环境中部署面临计算强度大的挑战。
为了克服这些挑战,研究人员探索了模型压缩技术,以在不显著降低性能的前提下减少模型的计算需求。其中,知识蒸馏(KD)作为一种双功能技术,不仅能够将复杂教师模型的表示知识转移到简单学生模型,还能实现模型压缩。知识蒸馏的基本思想是,通过教师模型的软预测来指导学生模型的学习,这些预测包含关于数据分布的有价值信息,而不仅仅是传统的硬标签。通过训练学生模型以模仿教师模型的预测和中间表示,KD可以创建紧凑的模型,保留原模型的大部分能力。
在知识蒸馏过程中,常用的损失函数是Kullback-Leibler(KL)散度。然而,KL散度在学生预测与教师分布不匹配时,可能表现出不对称性和数值不稳定性。相比之下,Jensen-Shannon(JS)散度是KL散度的对称化和平滑版本,它通过计算两个分布与它们平均分布之间的KL散度之和来定义。JS散度在优化过程中提供了更稳定的数值表现,但可能收敛速度较慢。因此,本研究提出了一种新的资源感知安全模型RAID-KL,该模型结合了KL散度和JS散度,以改进蒸馏过程中的学习动态和稳定性。RAID-KL利用1D卷积神经网络(1DCNN)作为学习算法,其中教师模型负责知识传递,而学生模型则被优化以适应资源受限的物联网设备。
RAID-KL在真实世界网络流量数据集上进行了训练和评估,包括CICIoT2023、CICIoMT2024和NIMSLABIoT2025。这些数据集涵盖了多种物联网威胁。RAID-KL在所有应用指标上均表现出色,且在训练和推理过程中具有低资源利用率。为了提高模型决策的可解释性,我们引入了SHapley Additive exPlanations(SHAP)值,以揭示特征对模型决策边界的影响。研究结果表明,损失函数的选择对性能和资源效率有显著影响,而混合KL-JS损失函数实现了更优的权衡。
RAID-KL的主要贡献包括:(1)开发了一种针对物联网安全应用的综合教师-学生框架;(2)系统比较了KL散度和JS散度在网络安全数据中的应用;(3)通过多个网络流量数据集进行了广泛的实验验证;(4)分析了不同蒸馏策略在计算和性能方面的权衡;(5)通过SHAP提供了详尽的可解释性分析;(6)在真实世界物联网数据集上展示了RAID-KL的有效性,证明其在准确性和计算成本之间的优越权衡。
这项研究的成果不仅限于物联网安全领域,其意义还在于边缘计算的持续发展和实时安全决策需求的增加。在资源受限的设备上部署复杂的深度学习模型变得越来越重要。我们的研究为在资源受限的环境中实施强大的安全解决方案提供了实际的见解,同时为KD技术在特定应用领域的广泛理解做出了贡献。
在传统知识蒸馏过程中,学生模型通过教师模型的知识进行监督,同时利用KL散度损失来调节教师和学生之间的知识差异。这一损失函数衡量两个概率分布之间的差异,但在教师和学生分布显著不同时,可能不稳定。为了改善这一问题,我们引入了一种新的混合KL-JS损失函数,该函数结合了KL散度和JS散度的优点,从而提高了蒸馏过程中的学习动态、稳定性和鲁棒性。教师模型首先在数据上进行训练,并基于选定的指标进行评估。然后,将教师模型的logits传递给优化后的学生模型,确保其在设备上执行时具有较低的计算复杂度。模型决策的评估通过SHAP进行,以解释哪些特征影响了决策边界。我们的主要贡献包括开发一种新的教师-学生框架、系统比较KL散度和JS散度在网络安全数据中的应用、进行广泛的实验验证、分析不同蒸馏策略的计算和性能权衡、通过SHAP提供详尽的可解释性分析,以及在真实世界物联网数据集上展示RAID-KL的有效性。
RAID-KL的训练过程采用了温度参数自适应机制,该机制动态调整温度参数,以根据教师和学生模型的中间特征表示之间的相似性进行调整。这确保了温度参数能够根据模型内部表示的对齐程度进行适当缩放。此外,我们引入了反频率类加权策略和合成少数过采样技术(SMOTE),以解决网络流量数据中的类别不平衡问题。SMOTE仅应用于训练数据集,以防止数据泄露,并确保对未见测试数据的评估是无偏的。通过这些方法,RAID-KL实现了更高的精度、可扩展性和效率,从而得到更轻量级和可部署的解决方案。
在实验设置和实现部分,我们使用了Python 3.12和PyTorch 1.8.0等工具进行模型训练和评估。我们分析了多个资源效率指标,包括浮点运算(FLOPs)、内存使用和推理延迟。通过这些指标,我们能够评估模型在资源受限的物联网环境中的计算可行性。实验结果显示,RAID-KL在训练和推理过程中均表现出良好的资源利用效率,同时保持了较高的检测性能。
在结果分析和讨论部分,我们详细评估了RAID-KL在不同数据集上的性能,包括IoMT24、NIMSIoT25和CIoT23。RAID-KL在所有数据集上均表现出色,实现了较高的准确率和较低的资源消耗。具体而言,在IoMT24数据集上,RAID-KL实现了99.47%的准确率,仅使用了教师模型的74.86%的参数,这表明其在模型压缩方面的显著优势。此外,RAID-KL在推理过程中表现出较低的延迟和较高的计算效率,使得其在资源受限的物联网设备上部署成为可能。
为了提高模型的可解释性,我们使用了SHAP方法,该方法能够揭示每个特征对模型决策的影响。通过SHAP值,我们发现了一些关键特征,例如数据包大小的偏度、TCP标志、IP目标熵和ICMP数据大小,这些特征对模型的决策具有显著影响。这种可解释性分析有助于提高模型的可信度,并为安全分析师提供可解释的威胁检测能力。
此外,我们还对教师模型和学生模型的混淆矩阵进行了分析,以深入了解分类行为。教师模型在大多数攻击类别中表现出几乎完美的分类能力,而学生模型在保持模型复杂度降低的同时,仍能实现接近教师模型的准确率。这些结果表明,知识蒸馏策略在保持模型性能的同时,能够有效降低计算复杂度。
最后,我们在结论部分总结了RAID-KL框架的优势和局限性。尽管RAID-KL在物联网安全优化方面取得了显著进展,但其对MQTT等特定物联网协议的攻击仍表现出一定的敏感性,这表明需要专门的训练策略来处理新兴的通信标准。此外,当前的评估主要集中在静态威胁场景,而未来的研究方向将包括开发能够适应不断变化的威胁环境的动态知识蒸馏技术,以及探索联邦学习和基于注意力的知识传递机制,以提高模型在多模态物联网数据流中的适用性。这些研究方向有望进一步拓展RAID-KL框架在下一代物联网安全挑战中的应用,最终实现对快速扩展和日益异构的物联网生态系统的全面保护。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号