在过去十年中,传感器和无线通信技术的显著进步催生了无线传感器网络(WSNs)[1]。最初,WSNs被军事和环境领域用于战场监视和天气监测等用途,现在其应用范围已迅速扩展[2]。由于其简单性、有效性、易于部署和成本效益,它们已成为医疗保健、工业自动化、电信、智慧城市和农业等多种应用的可行选择。
WSN由分布在感兴趣区域的一组传感器节点组成,这些节点通常被称为传感器场,用于监测和收集环境及物理条件,并将数据发送到基站进行后续处理[6]。该网络提供了包括监控、跟踪、处理甚至控制物理世界操作在内的多种功能。值得注意的是,WSNs设计用于在不仅危险或对人类不可进入,而且传统网络建立困难的环境中运行。
尽管WSNs在各种应用中取得了成功,但其设计的简单性是一把双刃剑。一方面,它简化了部署过程;另一方面,也带来了诸多挑战,如通信能力有限、处理能力不足、内存和能源资源有限。这些限制往往与它们电池的小尺寸有关。毫无疑问,能够提供长时间的服务是WSNs的重要特性;因此,网络寿命可以说是它们最重要的服务质量(QoS)指标[7]。
像大多数网络通信系统一样,WSNs也容易受到安全威胁和攻击[8]。它们的操作限制加上恶劣环境的影响,使它们特别容易受到从物理层到应用层的各种攻击。鉴于它们在关键应用中的作用,增强其安全特性至关重要。这些网络具有动态拓扑结构且以数据为中心,因此需要专门的研究来满足实时、节能和可靠的操作需求[9]。开发强大的安全措施以保护网络免受各种类型的攻击是一个重要的研究焦点。以下攻击方法可能影响WSNs:干扰、窃听、数据包重放、数据包篡改或欺骗、节点复制,以及Sybil、蠕虫洞、水洞、DoS(拒绝服务)攻击、节点破坏以及通过受损节点注入虚假消息等。
不幸的是,仅依靠防火墙、访问控制等被动防御措施不足以防止所有网络攻击。入侵检测作为一种主动安全措施,能够监控网络系统的运行状态以检测各种形式的入侵,无论是内部还是外部攻击,甚至是错误操作。这使得网络系统可以根据需要采取适当的拦截和响应措施[10]。多项研究提出了各种入侵检测系统(IDS)来保护网络免受恶意入侵,并能够有效地检测和应对这些安全威胁[11]。
入侵检测系统(IDS)通常分为两类:基于签名的IDS和基于异常的IDS。基于签名的系统假设攻击方法的细节已经已知,并且特定的入侵模式已被预先定义。当匹配发生时,会触发警报。虽然这些系统易于部署和管理,并且对已识别的攻击具有高检测率,但它们的局限性在于无法检测新的或未知的攻击方法,这使得它们容易受到使用新颖技术的攻击者的规避。
另一方面,随着攻击方式的不断演变,对更灵活的入侵检测解决方案的需求变得越来越迫切。基于异常的IDS应运而生,旨在识别偏离正常行为的异常流量模式。通过分析特定特征,基于异常的IDS可以捕捉到关键模式,任何这些模式与观察到的活动之间的差异都可能触发警报。因此,基于异常的IDS非常适合检测以前未知的攻击[12]。
因此,在WSNs中实施异常检测(AD)对于确保收集数据的准确性和信息收集者的决策过程的有效性至关重要[13]。
研究提出了多种基于异常的WSN IDS方法,采用了统计技术、基于最近邻的方法和数据挖掘[14]、[15]、[16]、[17]。提高检测能力的主要推动力是人工智能(AI)的进步。特别是机器学习(ML)[18]的应用越来越受到重视,越来越多的研究人员利用其潜力进行AD。人工神经网络[19]、[20]和进化计算[21]、[22]、[23]进一步强调了将AI与入侵检测技术相结合的前景。这些共同努力在该领域取得了显著成果,带来了新的进展和更高的检测能力。
在这种情况下,一个重要的挑战是定义异常的标准具有不确定性,因为它很大程度上取决于具体的用例,这给创建普遍适用的检测系统带来了困难。虽然AD在处理不可预测的攻击方面表现出色,但它需要大量的历史数据才能发挥最大潜力[24]。在WSN网络安全中,由于实际场景中标记数据的稀缺性,集成机器学习技术(MLTs)进行入侵检测变得更加复杂,这是最大的障碍之一[25]。
传统的监督机器学习模型严重依赖标记数据来学习将网络行为分类为正常或入侵的潜在模式。手动获取这些标签非常耗时且成本高昂。通常需要专家知识来确保标签的准确性,这进一步增加了复杂性和成本。此外,实时或接近实时的检测能力需求使得漫长的模型训练过程成为一个重大缺点。WSNs的动态特性要求在线学习(OL),以便进行持续更新,尤其是由于新类型的攻击可能不可预测地出现。这些模型必须经常进行修订以维护网络安全。然而,这种持续适应过程带来了一个重大挑战:它依赖于标记数据集的可用性,从而再次遇到了数据缺乏的问题。
为了解决这些挑战,主动学习(AL)提供了一种非常有前景的方法。主动学习(AL)[26]是一种专门的ML形式,它通过允许模型选择性地查询最具信息量的示例来进行专家标记,从而减少了对大量标记数据的需求。这种方法旨在在最小化标记时间和成本的同时实现高准确性,从而加快了模型训练的速度。因此,AL作为一种实用的方法,有助于提高WSNs中的实时入侵检测能力,在速度、成本和准确性之间提供了有效的平衡。
尽管有一些WSN-IDS研究开始使用AL[28],但它们仍然依赖于离线的、基于池的策略。据我们所知,之前没有WSN-IDS同时提供(i)实时流处理、(ii)基于流的AL并遵守预算限制,以及(iii)避免手动调整阈值的深度学习器。填补这一空白是本工作的核心目标。具体来说,我们的贡献包括:
OnlineADS:我们引入了OnlineADS,这是第一个将基于流的主动学习与OnlineDeepSVDD相结合的WSN IDS。与大多数专注于离线基于池的策略的不同,OnlineADS解决了动态环境中在线学习的关键挑战,允许检测器在严格标签预算下实时更新。
基于概率校准的Online DeepSVDD:我们引入了一种超轻量级的映射方法,将原始的OnlineDeepSVDD分数转换为伪概率。这种校准对于熵、边际和变异比率查询策略是必需的;没有它,这些策略将退化为随机采样。据我们所知,之前的工作没有为DeepSVDD提供这样的概率校准层。
3.资源感知的在线网格搜索:为了在实时环境中提高性能,我们将网格搜索应用于OnlineDeepSVDD的配置。进行了广泛的测试以确保模型有效满足WSN的实时要求。
4.全面评估:我们进行了广泛的研究,以检查和比较各种基于流的AL策略的影响,包括基于不确定性的、基于密度的和混合方法。我们的分析涵盖了不同数据不平衡严重程度的多个预算设置,提供了每种策略效果的详细评估。
本工作的其余部分结构如下:第2节回顾了先前的研究。第3节介绍了研究中使用的所有概念和技术的简要概述。第4节详细解释了所提出的方法。第5节详细介绍了实验和我们的研究结果。最后,第6节讨论了未来的工作。