过程挖掘中日志噪声的影响:定义、分类与跨学科视角的系统性研究

《IEEE Access》:The Effects of Log Noise in Process Mining

【字体: 时间:2025年11月28日 来源:IEEE Access 3.6

编辑推荐:

  本文针对过程挖掘中“噪声”定义不统一的问题,开展了系统性文献综述,提出了一个包含频率、准确性和合规性的噪声分类学及统一操作定义,并开发了噪声注入工具SNIP。研究构建了噪声类型的层次分解框架,并探讨了机器学习与自然语言处理领域的噪声概念对过程挖掘的借鉴意义,为提升过程挖掘结果的鲁棒性和可靠性奠定了结构化基础。

  
在当今数据驱动的商业环境中,企业依赖信息系统记录其运营过程,产生了海量的事件日志。过程挖掘(Process Mining)作为一种新兴的数据分析方法,旨在从这些事件日志中提取有价值的见解,以发现实际业务流程模型、检查执行过程是否符合规范,并增强现有模型。然而,过程挖掘的有效性严重依赖于事件日志的质量。业界常言的“垃圾进,垃圾出”(garbage in, garbage out)原则在此同样适用:低质量的事件日志必然导致生成的过程模型不准确,进而产生不可靠的分析结果。在影响事件日志质量的诸多因素中,“噪声”(noise)一直被视为一个关键挑战。但令人困扰的是,在过程挖掘研究领域,“噪声”这一概念本身却缺乏一个统一、明确的定义,这给学术交流和实际应用都带来了不小的障碍。
为了解决这一核心问题,来自墨尔本大学的研究团队Anandi Karunaratne, Artem Polyvyanyy和Alistair Moffat在《IEEE Access》上发表了他们的研究成果。他们认识到,噪声会损害过程挖掘所有三个核心分支的输出结果:在过程发现(discovery)中,噪声可能导致构建的模型不准确;在合规性检查(conformance)中,噪声可能掩盖真实的过程偏差;而在过程增强(enhancement)中,噪声可能误导基于数据的模型改进努力。因此,对噪声进行清晰的定义和系统的分类,已成为推动该领域发展的迫切需求。
为了回答“什么是过程挖掘中的噪声”以及“噪声有哪些类型和来源”这两个核心问题,研究人员开展了一项系统性的文献综述。他们检索了Scopus、Web of Science等多个学术数据库,经过严格的筛选流程,最终对56篇文献进行了深入分析。基于此,他们首先构建了一个噪声分类学(taxonomy)。该分类学包含两个层级:第一层级(Tier 1)是用于识别问题数据的三个维度——频率(Frequency, F,指行为在日志中出现的罕见程度)、准确性(Accuracy, A,指记录的数据是否真实反映过程执行)和合规性(Conformance, C,指行为是否偏离预期的过程规范)。每个维度用0(无问题)或1(有问题)表示,从而形成一个三位二进制向量[F,A,C],共有八种可能组合。研究人员对这八种情况逐一分析了其代表噪声的可能性(可能、可能、不太可能),并指出其根本原因(Tier 2)可能源于过程内部(如灵活的例外处理)或外部(如系统故障、人为错误)。基于此分析,他们提出了一个决策树(decision tree),帮助从业者判断有问题的数据是否应被视为噪声,并最终给出了一个统一的噪声定义:噪声是事件日志中记录的、不反映过程预期、可控且可重复执行的行为,且其移除不会损害分析目标。
进一步地,研究团队对轨迹噪声(trace noise)进行了系统的层次分解(hierarchical decomposition)。他们将噪声在轨迹层面的表现归纳为四种基本类型:插入噪声(Insertion Noise,添加了多余事件)、缺失噪声(Absence Noise,遗漏了合法事件)、顺序噪声(Ordering Noise,事件时序错乱)和替换噪声(Substitution Noise,事件属性值错误)。并对每种噪声类型进行了多层次的细化分解,例如,插入噪声可根据插入位置模式(顺序插入、随机插入)、插入的活动类型(过程相关活动、外部活动)等进行细分。同时,他们还将这些噪声类型追溯至其数据质量根源,即事件级别或属性级别(如案例IDCase ID、活动Activity、时间戳Timestamp)的缺失值(missing values)、额外值(extra values)或不正确值(incorrect values)。
在理论框架的基础上,研究者开发了一款名为SNIP(Structured Noise Injection Program)的基于Java的噪声注入工具。该工具能够接受符合XES标准的事件日志,并根据用户配置的参数(噪声水平、噪声类型、每次追踪的修改次数等),以可控的方式向日志中注入上述四种主要噪声类型。SNIP支持有放回(with replacement)和无放回(without replacement)两种采样模式,并生成注入噪声后的事件日志文件以及详细的注入报告。
为展示SNIP工具的实用性,论文包含了一个案例研究,旨在评估过程发现算法(process discovery algorithms)的稳定性(stability)。研究选用Sepsis和Road Traffic Fine Management System (RTFMS)两个真实事件日志,利用SNIP注入不同水平(0.5%, 1.0%, 1.5%, 2.0%)和不同类型(缺失、插入、替换、顺序以及混合噪声)的噪声,生成大量噪声日志变体。然后,应用三种经典的过程发现算法——Alpha Miner、Heuristic Miner和Inductive Miner——对这些噪声日志进行过程模型挖掘,并使用精度(precision)、召回率(recall)、泛化性(generalization)和简洁性(simplicity)四个指标评估生成模型的质量。通过计算均方连续差(Mean Squared Successive Differences, MSSD)来量化算法在噪声逐渐增加条件下的稳定性。结果表明,不同算法对噪声的敏感性差异显著。例如,Heuristic Miner在精度上表现出相对稳定性,而Alpha Miner和Inductive Miner即使对低水平噪声也很敏感。在泛化性上,所有算法都随着噪声水平增加而显著下降。不同类型的噪声影响也不同,插入噪声、替换噪声和混合噪声通常比缺失噪声和顺序噪声引发更高的不稳定性。
最后,研究者还富有创见地探讨了机器学习(Machine Learning)和自然语言处理(Natural Language Processing, NLP)这两个领域中的噪声概念如何映射到过程挖掘中,以期获得跨学科的启示。从机器学习的视角,可以将事件日志视为结构化数据集,噪声相应地被分类为属性噪声(attribute noise,如属性值错误、缺失)和类别噪声(class noise,如目标标签错误)。这些概念与过程挖掘中轨迹级别的噪声(如替换噪声、缺失噪声)存在对应关系。从自然语言处理的视角,则将事件日志中的轨迹视为序列(如句子),NLP中的一些噪声类型,如拼写错误(orthography,对应替换噪声)、不流畅表达(disfluencies,对应插入噪声)等,可以与过程挖掘中的轨迹噪声建立联系。这种跨学科的对比分析,为理解和处理过程挖掘中的噪声问题提供了新的思路和潜在的技术借鉴。
本研究通过系统性的文献回顾、严谨的分类学构建、实用的工具开发、深入的案例验证以及跨学科的视角融合,对过程挖掘中的日志噪声问题进行了全面而深入的探讨。其所提出的噪声分类学和统一定义为该领域提供了共同的语言和诊断框架。SNIP工具则为研究人员评估算法在噪声环境下的鲁棒性提供了便利的手段。案例研究结果明确揭示了不同过程发现算法对噪声的敏感性差异,为算法选择和改进提供了实证依据。而跨学科的对比则开启了利用相关领域成熟方法解决过程挖掘数据质量问题的可能性。这些贡献共同为理解和处理事件日志中的噪声奠定了结构化的基础,必将促进更稳健、更可靠的过程挖掘结果的出现,推动该技术在优化业务流程、提升决策质量和支持持续改进方面发挥更大价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号