《Internet of Things》:A Holistic Framework for Privacy-Preserving and Trusted Cyber Threat Intelligence in Industry 5.0: A Fusion of Blockchain and Tiny Semi-Supervised Class-Incremental Learning with Catastrophic Forgetting Mitigation
编辑推荐:
隐私保护与可信工业物联网威胁情报框架研究,融合区块链与轻量级半监督增量学习,解决设备端资源受限下的持续威胁检测与数据共享难题。
萨米亚·埃尔·哈杜蒂(Samia El Haddouti)| 威萨尔·拉兹拉克(Wissal Lazraq)| 劳里·洛文(Lauri Loven)| 穆罕默德·达菲尔·埃奇-谢里夫·埃尔·凯塔尼(Mohamed Dafir Ech-Cherif El Kettani)| 哈比巴·查维(Habiba Chaoui)
摩洛哥拉巴特穆罕默德五世大学(Mohammed V University)理学院计算机科学系,邮编10100
摘要
工业5.0依赖于智能工业物联网(IIoT)来促进人机协作,并提高制造业的灵活性和创新能力。然而,大量敏感的操作数据极大地增加了面临高级网络威胁的风险。这凸显了需要一种既保护隐私又值得信赖的网络威胁情报(CTI)系统,该系统能够在资源有限的IIoT设备上直接运行。现有的基于TinyML的CTI方法受到标记数据稀缺和持续更新过程中出现的灾难性遗忘问题的限制。确保共享情报的质量和可靠性对于协作式网络安全工作中的决策制定至关重要。
为了解决这些问题,我们提出了一个针对工业5.0的新型综合性CTI框架,该框架将区块链技术与可扩展且高效的Tiny半监督类增量学习模型相结合。在学习方面,基于置信度的伪标记机制结合轻量级的生成特征重放技术,使IIoT设备能够在严格的内存和能源限制下支持增量威胁检测。在信任和治理方面,三个智能合约利用轻量级密码学和zk-SNARK证明来验证设备与协作方的身份,根据预定义的标准验证CTI的质量,并提供细粒度和可审计的访问控制,同时将加密的CTI记录存储在IPFS上。
在真实的IIoT威胁数据集上的广泛实验表明,该框架的检测准确率超过98%,内存保留率约为96%,并且在微控制器级别的硬件上具有快速的推理能力。与现有技术相比,区块链层的操作成本更为高效,证明了所提出的框架为工业5.0生态系统提供了保护隐私和值得信赖的CTI解决方案。
引言
工业5.0通常被称为第五次工业革命,它代表了一个以人为中心、注重可持续性和智能化的转型阶段,旨在提高生产效率、灵活性和创新能力,从而提升基于工业的经济的整体质量[1]。为了实现这些目标,包括人工智能(AI)、物联网(IoT)和边缘计算在内的前沿技术被协同集成,催生了智能工业物联网(IIoT)系统,为汽车、物流、医疗保健和农业等多个领域的智能制造铺平了道路[2]。
尽管工业5.0带来了许多进步,但其对复杂技术和大规模数据交换的依赖使其越来越容易受到复杂网络攻击的威胁,尤其是针对那些往往没有强大安全措施的IIoT设备的攻击。因此,在IIoT设备上直接部署智能安全机制以实时检测异常行为和新出现的威胁至关重要。在工业环境中,延迟检测和响应网络事件可能导致严重的运营中断,因此忽视IIoT设备的安全风险会削弱更广泛的防御努力,强调了包括设备级防护措施在内的全面安全策略的必要性[3]。
网络威胁情报(CTI)作为一种主动防御策略,在数据收集、威胁分析、网络威胁洞察传播和事件响应规划四个关键阶段提供支持和基于信息的决策[5]。将IIoT设备纳入CTI生命周期的初始阶段,特别是通过本地化收集和报告威胁指标,不仅可以实现实时威胁识别,还能提高后续威胁分析的相关性和准确性。为了进一步提升这一阶段的CTI能力,人工智能(AI)和机器学习(ML)的集成在实现实时威胁检测、加速威胁分类以及最终改善整体事件响应方面显示出巨大潜力[6]。然而,传统的ML模型在现实世界的IIoT场景中往往表现不佳,因为计算效率、低延迟和数据隐私性至关重要。
鉴于这些情况,小型机器学习(TinyML)作为一种有前景的解决方案被采用,它允许在资源有限的设备上直接部署高效的ML模型,通过利用微控制器硬件的最新进展实现本地处理和推理。这种方法减少了延迟,降低了通信开销,并增强了数据隐私和安全性[7]。需要注意的是,典型TinyML模型的一个关键限制在于训练阶段和推理阶段之间的分离。实际上,ML模型通常在云中使用强大的计算资源进行预训练,而只有在资源有限的设备上进行推理。这种静态设计阻止了部署的TinyML模型持续学习和适应新数据,因为IIoT设备通常缺乏重新训练所需的计算能力,这限制了它们对不断演变的攻击和零日攻击的有效性[8]。这一问题因大量未标记数据以及由于攻击者行为变化而导致的威胁模式的动态性而变得更加严重,这种现象被称为概念漂移[9]。
为了克服上述限制并实现就地训练,类增量学习(CIL)作为一种可扩展的方法受到了关注,它允许ML模型逐步学习新的威胁类别而无需从头开始重新训练,从而减少了大量计算和内存需求。这种策略特别适合与TinyML集成[10]。然而,CIL面临一个重大挑战,即灾难性遗忘,即模型在学习新类别时往往会丢失先前获得的知识[11]。文献中报道的常见缓解灾难性遗忘的策略通常涉及使用旧样本和新样本重新训练模型,但假设有足够的内存、存储和计算资源。特别是在内存和能耗方面受到严格限制的基于TinyML的IIoT设备中,这些方法可能不可行。因此,迫切需要开发轻量级、内存效率高的CIL策略,以满足TinyML平台的资源限制,同时不牺牲检测准确性或知识保留能力。
在CTI设计中,特别是在高度互联的工业5.0生态系统中,共享CTI数据的质量和可靠性是一个关键考虑因素。事实上,当CTI能够被安全地传播并由相关利益相关者及时采取行动时,其价值显著增加。相反,不可靠或被恶意篡改的CTI输入(包括来自受损边缘设备或云服务器的输入)可能会误导决策、干扰防御操作,并最终破坏工业流程。因此,生成具有预定义质量水平的可操作和可信的CTI数据是一个需要进一步研究和考虑的持续挑战[12]。
在这方面,区块链技术[13]在相关领域得到了越来越多的应用,特别是在安全数据共享和声誉管理系统[14]、[15]中。这种兴趣源于区块链的独特特性,即去中心化、抗篡改性和可追溯性,这些特性共同增强了共享数据的安全性和可靠性。在这些系统中,网络中的每个矿工节点根据预定义的共识算法独立验证和认证交易[16]。这种分布式验证过程在减少未经授权的修改和欺诈性条目的风险方面特别有效,从而保护了协作和分布式环境中交换的信息的完整性。
根据NIST指南[17],有效的CTI必须满足五个基本原则:(i) 来源可靠;(ii) 遵循明确的生成流程;(iii) 提供充分的上下文细节;(iv) 采用一致的数据模型;(v) 支持自动化。然而,对最近CTI策略的比较分析显示,在工业5.0中全面满足所有这些原则仍然是一个相当大的挑战,因为IIoT设备的计算资源有限,这指出了一个有前景的研究方向。
作为回应,我们从整体角度提出了一种专为工业5.0生态系统设计的新型CTI框架。据我们所知,这是第一个将区块链、TinyML、半监督学习和CIL以及缓解灾难性遗忘的机制协同结合的方法。从感知层开始,该框架促进了自适应、安全和保护隐私的CTI生成及其可信传播,同时有效管理了IIoT设备的计算和能源限制所带来的权衡。此外,该框架集成了安全的链下存储,以高效处理大量CTI数据,减少了链上的开销和延迟,同时保持了数据的完整性和授权方的访问权限。
本研究的主要贡献总结如下:
- 提出了一种结合区块链和Tiny半监督CIL的新方案,用于工业5.0中的隐私保护和可信CTI策略。
- 介绍了一种半监督学习方法,用于识别不断演变的威胁流中的模式。该方法利用了精细的伪标记技术。
- 开发了一种简单而有效的CIL机制,可在支持连续和可扩展的学习新威胁类别的同时减轻灾难性遗忘。
- 实施了一种策略,将CIL模型转换为适合在IIoT平台上部署的紧凑高效版本,从而在资源有限的硬件上提高学习和推理能力,而不影响性能。
- 在公共区块链上设计并实现了三个智能合约,用于:(i) 验证IIoT设备和业务合作伙伴的身份;(ii) 评估和验证CTI内容的质量;(iii) 安全存储CTI记录,并对私人CTI信息提供细粒度的访问控制。
- 进行了一系列全面的实验,以评估所提出解决方案的性能,并评估区块链交易中的资源消耗和成本效率,展示了我们方法在实际应用中的可行性。
文章的其余部分结构如下。第2节回顾了相关工作。第3节介绍了工业5.0中的CTI方法论,包括结构设计流程和数学公式。第4节报告了实验结果并进行了相应的讨论。最后,第5节总结了文章并指出了未来研究的方向。
相关工作
相关工作
本节回顾了Tiny CIL和区块链的最新进展,强调了用于比较分析相关方法的关键考虑因素,并为我们的框架设计提供了依据。
提出的方法论
本节介绍了专为工业5.0设计的CTI框架。它概述了一种结构化的方法论,该方法结合了小型半监督CIL,以实现IIoT环境中持续检测网络威胁、可信的CTI数据共享及其安全存储和受控访问。讨论从架构概述开始,然后详细解释了框架的核心组件和机制。
实验和评估
本节介绍了实验设置,并对TinyCIL模型进行了全面评估,同时分析了与区块链相关的指标,以评估所提出框架的可行性和有效性。
结论和未来工作
在本文中,我们提出了一种专为工业5.0设计的综合性CTI框架,它结合了区块链和小型半监督CIL,以保护隐私并支持实时、可靠和协作的网络安全,这是制造环境中人机协作的基本要求。具体来说,所提出的方法论解决了与标记数据有限和在持续学习网络威胁过程中发生的灾难性遗忘相关的挑战。
CRediT作者贡献声明
萨米亚·埃尔·哈杜蒂(Samia El Haddouti):写作 – 审稿与编辑、原始草稿撰写、可视化、验证、软件开发、资源管理、方法论制定、调查、形式分析、数据整理、概念化、项目管理、监督。
威萨尔·拉兹拉克(Wissal Lazraq):原始草稿撰写、软件开发、调查。
劳里·洛文(Lauri Loven):审稿与编辑、原始草稿撰写、验证、方法论制定、概念化、形式分析。
穆罕默德·达菲尔·埃奇-谢里夫·埃尔·凯塔尼(Mohamed Dafir Ech-Cherif El Kettani):审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。