LLM与ML的结合:在不稳定日志上进行的数据高效异常检测
《ACM Transactions on Software Engineering and Methodology》:LLM meets ML: Data-efficient Anomaly Detection on Unstable Logs
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
针对不稳定日志的异常检测挑战,提出FlexLog方法,融合ML模型与Mistral大语言模型,通过集成学习、缓存和RAG提升效率与效果。实验表明,在四个数据集上F1分数优于基线至少1.2pp,减少62.87%标注数据,推理时间低于1秒。
摘要
大多数基于日志的异常检测器假设日志是稳定的,但实际上由于软件或环境的变化,日志往往是不稳定的。因此,在不稳定的日志上进行异常检测(ULAD)是一个更为现实但研究不足的挑战。目前的方法主要采用机器学习(ML)模型,这些模型通常需要大量的标记数据进行训练。为了缓解数据不足的问题,我们提出了FlexLog,这是一种新颖的混合方法,它将ML模型(决策树、k最近邻和前馈神经网络)与大型语言模型(Mistral)通过集成学习相结合。FlexLog还引入了缓存和检索增强生成(RAG)技术,以进一步提高效率和效果。为了评估FlexLog,我们准备了四个用于ULAD的数据集,分别是ADFA-U、LOGEVOL-U、SynHDFS-U和SYNEVOL-U。FlexLog在F1分数上至少比所有基线方法高出1.2个百分点(pp),同时使用的标记数据量大大减少(减少了62.87个百分点)。当在与基线相同的数据量上进行训练时,FlexLog在ADFA-U数据集上的F1分数提高了多达13个百分点。此外,FlexLog的推理时间保持在每条日志序列不到一秒,适用于大多数应用场景,除了对延迟敏感的系统。进一步分析显示了FlexLog的关键组件(缓存、RAG和集成学习)的积极影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号