LLM与ML的结合：在不稳定日志上进行的数据高效异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Software Engineering and Methodology》：LLM meets ML: Data-efficient Anomaly Detection on Unstable Logs

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Software Engineering and Methodology

编辑推荐：

　　针对不稳定日志的异常检测挑战，提出FlexLog方法，融合ML模型与Mistral大语言模型，通过集成学习、缓存和RAG提升效率与效果。实验表明，在四个数据集上F1分数优于基线至少1.2pp，减少62.87%标注数据，推理时间低于1秒。

摘要

大多数基于日志的异常检测器假设日志是稳定的，但实际上由于软件或环境的变化，日志往往是不稳定的。因此，在不稳定的日志上进行异常检测（ULAD）是一个更为现实但研究不足的挑战。目前的方法主要采用机器学习（ML）模型，这些模型通常需要大量的标记数据进行训练。为了缓解数据不足的问题，我们提出了FlexLog，这是一种新颖的混合方法，它将ML模型（决策树、k最近邻和前馈神经网络）与大型语言模型（Mistral）通过集成学习相结合。FlexLog还引入了缓存和检索增强生成（RAG）技术，以进一步提高效率和效果。为了评估FlexLog，我们准备了四个用于ULAD的数据集，分别是ADFA-U、LOGEVOL-U、SynHDFS-U和SYNEVOL-U。FlexLog在F1分数上至少比所有基线方法高出1.2个百分点（pp），同时使用的标记数据量大大减少（减少了62.87个百分点）。当在与基线相同的数据量上进行训练时，FlexLog在ADFA-U数据集上的F1分数提高了多达13个百分点。此外，FlexLog的推理时间保持在每条日志序列不到一秒，适用于大多数应用场景，除了对延迟敏感的系统。进一步分析显示了FlexLog的关键组件（缓存、RAG和集成学习）的积极影响。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号