LogERT:基于演化搜索树的稳定日志模板挖掘方法
《Array》:LogERT:Stable log template mining method based on evolving re-search trees
【字体:
大
中
小
】
时间:2025年10月28日
来源:Array 4.5
编辑推荐:
本文针对传统日志解析方法依赖领域知识、深度学习模型受限于训练样本特征表示、大模型解析器存在网络不稳定性和可解释性问题等挑战,提出了一种基于演化搜索树(LogERT)的日志模板挖掘方法。该方法通过变深度搜索树生成关键词和初始模板,构建关键词特征搜索树,利用回溯消除特征编码影响,在16个公共日志数据集上的实验表明,LogERT将分组准确率(GA)提升4.8%,标准差降低4.29%,显著提高了日志解析的准确性和跨数据集稳定性。
在智能化运维日益重要的今天,日志数据作为记录系统状态和行为的关键信息,扮演着不可或缺的角色。然而,传统的日志解析方法面临诸多挑战:一方面,基于规则的方法严重依赖领域知识,难以适应不同类型日志数据的变化;另一方面,基于深度学习的方法受限于训练样本的特征表示,难以学习少数样本的特征结构,导致鲁棒性不足。更令人头疼的是,近期提出的大模型解析器又遭遇网络不稳定和可解释性差的困扰。这些问题严重制约了日志解析在自动化运维中的实际应用效果。
为了解决这些难题,广西财经大学广西金融与经济大数据重点实验室的研究团队在《Array》期刊上发表了题为"LogERT: Stable log template mining method based on evolving research trees"的研究论文,提出了一种创新的日志模板挖掘方法。
研究人员主要采用了双树架构的技术路线:首先是演化搜索树(EST),它以日志语句长度作为主要特征构建变深度搜索树,通过分支将不同结构特征的日志划分到不同叶节点;其次是关键词搜索树(KST),它以关键词作为编码方式,在叶节点记录具有相同关键词但不同长度的日志模板。这种方法巧妙地通过回溯机制消除了搜索树中特征编码对日志模板生成的影响。
研究选取了Loghub基准数据集中16个不同系统的日志数据,包括分布式系统、超级计算机、操作系统等。通过Group Accuracy(GA)和Template F1-score两个指标评估解析准确性,同时考察方法在不同类型日志数据集上的稳定性。
4.2. RQ1: How accurate is LogERT's log parsing?
实验结果显示,LogERT在大多数数据集上的解析准确性显著优于基线方法。在分组准确率方面,LogERT在16个日志数据集中的13个上取得了最佳性能,平均GA达到0.933,比当前先进的日志解析器组提升4.8%。在Template F1-score方面,LogERT平均达到0.993,表现出优异的模板提取能力。
4.3. RQ2: Can LogERT's parsing performance be stable on a variety of different types of log datasets?
稳定性测试表明,LogERT在处理不同类型日志数据时表现出更加集中的解析精度分布。这得益于其双树设计:演化搜索树通过分支将不同结构特征的日志划分到不同叶节点,完成同一特征集内的模板挖掘;关键词搜索树则通过回溯合并机制,补充日志更新后可能遗漏的结构化特征表示。
4.4. RQ3: How efficient is LogERT in processing large-scale log data?
效率评估显示,LogERT在三个大规模日志数据集(HDFS_v1、OpenStack和BGL)上均呈现线性累积解析时间。虽然由于双树结构引入了额外的计算步骤,但通过动态节点分割和轻量级回溯策略,仍能保持良好的处理效率。
讨论部分深入分析了双树架构的内存开销和计算成本。内存方面,通过参数φ限制叶节点的模板组数量,实现动态节点分割;计算方面,采用流水线执行策略,EST和KST顺序运行,避免重复扫描原始日志。此外,LogERT还展现出良好的噪声抵抗能力,能够有效处理非结构化日志。
该研究的重要意义在于,LogERT方法不仅显著提高了日志解析的准确性,更重要的是增强了跨不同特征分布数据集的稳定性。这种方法减少了对领域知识的依赖,能够有效提取日志模板而不依赖额外的领域知识,为实现准确的结构化日志分析提供了新的技术路径。特别是在日志数据不断更新和增长的现实环境下,LogERT展现出的稳定性和效率优势,使其在自动化运维领域具有重要的应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号