用于高性能计算系统异常检测的联邦迁移学习:首次在顶级超级计算机上的真实世界验证

《Expert Systems with Applications》:Federated Transfer Learning for Anomaly Detection in HPC Systems: First Real-World Validation on a Tier-0 Supercomputer

【字体: 时间:2025年09月19日 来源:Expert Systems with Applications 7.5

编辑推荐:

  联邦迁移学习在HPC异常检测中的应用及验证

  在当今的计算环境中,高绩效计算(High-Performance Computing, HPC)系统正变得越来越复杂和庞大。这些系统不仅支持科学研究和工程创新,还承担着处理大规模数据和执行高计算需求任务的重要角色。然而,随着系统的扩展,其可靠性和稳定性面临着前所未有的挑战。特别是在实际部署中,HPC系统需要持续监控和维护,以确保其能够高效运行并避免潜在的故障。因此,开发一种既能满足实际需求,又能兼顾隐私保护和可扩展性的异常检测技术变得至关重要。

传统的异常检测方法通常依赖于集中式机器学习技术,这些技术假设所有节点的行为是相似的,并且可以访问统一的数据集。然而,在现实的HPC环境中,这种假设往往不成立。由于系统中包含多种硬件配置、不同的内存和冷却机制、多样化的计算负载以及不同的运行模式,各个节点的数据分布呈现出显著的异质性。这种异质性使得集中式模型难以泛化,从而影响了其在实际部署中的效果。此外,数据隐私和数据量的限制也进一步阻碍了集中式训练的可行性,促使研究者探索更加分布式和自适应的方法。

在这一背景下,联邦学习(Federated Learning, FL)作为一种分布式机器学习方法,为HPC环境中的异常检测提供了新的思路。联邦学习允许模型在不共享原始数据的情况下进行训练,通过在各个节点上进行本地训练,并仅在模型参数层面进行聚合。这种方法不仅能够保护数据隐私,还支持系统的可扩展性。然而,联邦学习在实际应用中仍存在局限性,尤其是在模型需要泛化到未参与训练的节点时。传统的联邦学习方法往往无法有效传递知识,导致在未参与节点上的检测性能下降。

为了解决这一问题,研究者们开始探索将联邦学习与迁移学习(Transfer Learning, TL)相结合的方法。迁移学习能够在不同领域之间传递模型的知识,使模型在缺乏标注数据的情况下也能进行有效的训练和适应。然而,迁移学习本身并不具备隐私保护和分布式训练的能力,因此单独使用迁移学习在HPC环境中并不理想。结合联邦学习和迁移学习的优势,研究者提出了联邦迁移学习(Federated Transfer Learning, FTL)的概念。

FTL的核心思想是通过联邦学习获取全局的模型编码,然后将这些编码迁移到未参与训练的节点上,并根据节点的本地数据进行个性化微调。这种方法既保留了联邦学习在隐私保护和可扩展性方面的优势,又利用了迁移学习在跨领域适应能力上的潜力。通过这种方式,FTL能够在不暴露原始数据的前提下,实现对未参与节点的有效检测,从而提升了整体系统的可靠性和维护效率。

为了验证FTL的有效性,本研究在意大利CINECA的Marconi100超级计算机上进行了实际应用。Marconi100是一个Tier-0级别的生产级超级计算机,具有广泛的节点配置和多样的运行环境。通过收集来自100个节点的大量遥测数据,我们评估了FTL在监督、半监督和无监督学习范式下的表现。结果表明,FTL在未参与训练的节点上实现了显著的检测性能提升,F1分数的增益甚至达到了0.50。这一结果不仅证明了FTL在处理非独立同分布(non-IID)数据方面的有效性,还展示了其在真实世界条件下的应用潜力。

在方法论上,我们设计了一种结合联邦学习和迁移学习的混合框架。首先,我们选择一部分具有代表性的节点进行本地训练,以学习全局的模型编码。这些编码能够捕捉到系统行为的普遍特征,从而为其他节点提供有效的知识基础。接下来,我们将这些编码迁移到未参与训练的节点上,并根据节点的本地数据进行微调,以适应其特定的行为模式。这种方法不仅减少了对原始数据的依赖,还降低了模型训练和部署的资源消耗,使其更适合大规模和异构的HPC环境。

在实验设计中,我们采用了多种策略来评估FTL的效果。首先,我们比较了基于性能的节点选择(Top-N)和基于多样性的节点选择(Random-N)策略,以确定哪种方法在实际应用中更为有效。通过统计显著性检验,我们验证了这两种策略在检测性能上的差异,并得出了相关的结论。其次,我们对不同监督水平下的检测效果进行了系统评估,包括无监督、半监督和监督学习。这种跨范式的评估不仅展示了FTL的灵活性,还为其在不同应用场景下的部署提供了理论支持。

此外,我们还对非独立同分布(non-IID)数据的异质性进行了深入分析。通过主成分分析(PCA)投影和编码器权重的余弦相似性计算,我们揭示了节点间数据分布的差异,并验证了这些差异如何影响模型的泛化能力。这些分析不仅为FTL的设计提供了依据,还为未来的研究指明了方向。

本研究的创新点在于,它首次在生产级的HPC环境中验证了联邦迁移学习(FTL)的实际效果。与以往的联邦学习在HPC中的研究不同,我们不仅关注模型在参与节点上的表现,还特别强调了模型在未参与节点上的泛化能力。通过结合联邦学习和迁移学习的优势,我们构建了一个既保护数据隐私又支持分布式训练的框架,为HPC环境中的异常检测提供了一种新的解决方案。

在实验结果方面,我们发现FTL在多种学习范式下均表现出色。特别是在无监督学习中,FTL能够有效识别未参与训练的节点中的异常模式,这在传统联邦学习中往往难以实现。半监督学习则在有限的标注数据下提供了良好的检测性能,而监督学习则在完全标注的数据集上进一步提升了模型的准确性。这些结果表明,FTL不仅适用于不同的监督水平,还能在实际应用中实现高效和准确的异常检测。

在资源消耗方面,我们提出了一种基于解码器的微调策略,以减少模型训练和部署的资源需求。与传统的全模型微调相比,这种策略能够在保持全局编码的同时,降低计算时间和内存占用,从而提升整体系统的效率。这一方法在实际部署中具有重要的应用价值,特别是在资源受限的HPC环境中。

本研究的贡献不仅在于方法论上的创新,还在于对实际应用场景的深入探索。通过在真实世界的HPC环境中进行实验,我们验证了FTL的可行性,并提供了详细的分析和评估结果。这些结果为未来的HPC异常检测研究提供了重要的参考,并展示了联邦迁移学习在实际应用中的潜力。

总之,本研究通过引入联邦迁移学习(FTL)的方法,为HPC环境中的异常检测提供了一种新的解决方案。FTL结合了联邦学习和迁移学习的优势,能够在不暴露原始数据的前提下,实现对未参与训练节点的有效检测。通过在真实世界的生产级超级计算机上进行实验,我们验证了FTL的性能和泛化能力,并展示了其在实际应用中的价值。未来的研究可以进一步探索FTL在更多HPC环境中的应用,以及如何优化其在不同监督水平下的表现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号