并非所有异常情况都是一样的:在现实世界的企业中如何对错误日志进行分类处理
《ACM Transactions on Software Engineering and Methodology》:Not All Exceptions Are Created Equal: Triaging Error Logs in Real-World Enterprises
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
异常疲劳是大规模Java系统中频繁异常导致开发者管理效率低下的问题,目前缺乏系统性研究。本文以阿里巴巴为案例,提出 Abel解决方案,通过关联Java异常与业务KPI实现自动诊断,在4个应用、5个KPI的评估中AC@5达90%以上,处理时间比人工缩短1小时以上。
摘要
像Java异常这样的错误日志在诊断和解决行业内的问题中起着至关重要的作用。然而,在大规模的Java系统中,由于Java异常的生成频率过高,开发者可能难以有效处理这些异常,从而导致“异常疲劳”现象。遗憾的是,目前关于这一问题的严重性、普遍性以及解决方案的研究还十分有限。为了填补这一空白,我们首先对中国一家知名互联网企业——阿里巴巴进行了全面的研究,证实了“异常疲劳”现象在该行业中的重要性。随后,我们提出了一种名为ABEL的新解决方案,该方案能够自动识别与软件故障最相关的异常。主要挑战在于异常的随机性,这使得基于序列的分析方法无法发挥作用。为了解决这一难题,ABEL建立了Java异常与应用程序关键绩效指标(KPI)之间的关联,从而能够识别导致KPI异常的异常。通过对阿里巴巴四个Java应用程序和五个业务KPI的评估,我们发现ABEL能够以超过90%的准确率(前5名正确率)定位错误日志的根本原因,有效缓解了阿里巴巴的“异常疲劳”问题。此外,它还能在短短4分钟内识别出实际软件故障的根源异常,其效率比手动排查过程高出至少一个小时。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号