LLM与ML的结合:在不稳定日志上进行的数据高效异常检测

《ACM Transactions on Software Engineering and Methodology》:LLM meets ML: Data-efficient Anomaly Detection on Unstable Logs

【字体: 时间:2025年11月08日 来源:ACM Transactions on Software Engineering and Methodology

编辑推荐:

  针对不稳定日志的异常检测挑战,提出FlexLog方法,融合ML模型与Mistral大语言模型,通过集成学习、缓存和RAG提升效率与效果。实验表明,在四个数据集上F1分数优于基线至少1.2pp,减少62.87%标注数据,推理时间低于1秒。

  

摘要

大多数基于日志的异常检测器假设日志是稳定的,但实际上由于软件或环境的变化,日志往往是不稳定的。因此,在不稳定的日志上进行异常检测(ULAD)是一个更为现实但研究不足的挑战。目前的方法主要采用机器学习(ML)模型,这些模型通常需要大量的标记数据进行训练。为了缓解数据不足的问题,我们提出了FlexLog,这是一种新颖的混合方法,它将ML模型(决策树、k最近邻和前馈神经网络)与大型语言模型(Mistral)通过集成学习相结合。FlexLog还引入了缓存和检索增强生成(RAG)技术,以进一步提高效率和效果。为了评估FlexLog,我们准备了四个用于ULAD的数据集,分别是ADFA-U、LOGEVOL-U、SynHDFS-U和SYNEVOL-U。FlexLog在F1分数上至少比所有基线方法高出1.2个百分点(pp),同时使用的标记数据量大大减少(减少了62.87个百分点)。当在与基线相同的数据量上进行训练时,FlexLog在ADFA-U数据集上的F1分数提高了多达13个百分点。此外,FlexLog的推理时间保持在每条日志序列不到一秒,适用于大多数应用场景,除了对延迟敏感的系统。进一步分析显示了FlexLog的关键组件(缓存、RAG和集成学习)的积极影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号