《Heliyon》:End-to-end data quality-driven framework for machine learning in production environment
在当今工业4.0时代,人工智能和机器学习技术正在彻底改变传统制造业的面貌。从医疗健康到金融服务,从网络安全到软件可靠性工程,各行业都在积极拥抱这些技术以推动创新和效率提升。然而,这些应用场景往往处于持续演变的动态环境中,给机器学习系统的稳定运行带来了严峻挑战。
以医疗健康领域为例,在COVID-19大流行期间,机器学习系统需要快速适应不断变化的流行病学趋势和诊疗方案,同时处理复杂的健康参数相互依赖关系。类似地,在软件可靠性工程中,机器学习模型必须持续调整以适应变化的系统行为、使用模式和新出现的故障模式。这种现实应用的演化特性凸显了自适应机器学习系统的重要性——它们需要在条件变化时仍能保持性能稳定。
尽管人工智能技术取得了显著进展,但现有研究大多聚焦于算法优化,而非数据质量提升。然而,最新研究表明,数据质量对机器学习性能的影响可能比算法选择更为关键。这一认识引发了从以模型为中心到以数据为中心的人工智能范式转变,特别是在工业应用中,海量数据需要被快速处理,高质量数据的价值更加凸显。
在数据为中心的方法中,确保数据质量的有效手段之一是引入可接受性阈值。这一阈值定义了数据必须满足的最低标准,只有超过预设标准的数据才会被用于训练机器学习模型。数据质量通过评估准确性、完整性、一致性、及时性等多个维度,并组合成综合数据质量评分来进行量化评估。
然而,高质量数据的监控和维护过程给机器学习系统带来了显著负担,尤其是在实时环境中。当前方法通常涉及计算密集型流程,可能导致显著延迟,这对于时间敏感的应用场景来说,可能使机器学习预测变得过时。例如,谷歌的TFX采用面向批次的数据验证,虽然全面但未针对实时处理进行优化;DaQL在动态环境中面临可扩展性问题,其基于规则的质量过滤器需要大量计算资源。
机器学习运维(MLOps)的出现为应对这些挑战提供了新思路。MLOps集成了DevOps和数据工程原则,优化了机器学习模型的大规模部署、监控和管理。这些流程促进了迭代开发,使得机器学习模型能够根据变化的数据和条件进行持续更新和改进。然而,传统方法通常将数据质量评估视为独立的离线任务,如图1(a)所示,这种分离处理方式限制了系统的整体效率。
理想情况下,数据质量评估应当与机器学习算法互补,漂移检测作为动态桥梁确保系统对变化条件的持续适应,如图1(b)所示。这种集成对于人工智能系统在现实应用中的成功至关重要,它使得系统能够自动调整以适应数据分布变化,同时维持质量标准,从而在工业环境中更有效地处理任务。
本研究针对现有解决方案的不足,提出了一个新颖的端到端框架,将自适应数据质量评估与MLOps实践集成到实时生产系统中。该框架采用MLOps原则,如持续集成和持续部署(CI/CD)管道,将自适应定量数据质量评估纳入机器学习模型生命周期,并利用变化检测机制识别数据分布偏差,自动触发模型的重新训练和部署过程。
关键技术方法包括:基于动态漂移检测的阈值自适应调整机制,无需预定义阈值即可适应工业数据的动态特性;多维度数据质量评分模块,通过主成分分析(PCA)技术综合准确性、完整性、一致性、及时性和偏度等维度生成统一质量评分;基于XGBoost的数据质量预测模型,替代传统计算密集型方法;以及数据质量感知的机器学习模型开发流程,确保只有符合质量标准的数据用于模型训练。研究数据来源于瑞典Uddeholm钢铁制造公司的电渣重熔(ESR)真空泵送过程,包含每100毫秒记录的压力读数,每个泵送周期长达20分钟。
框架设计与实现
提出的数据质量驱动机器学习框架旨在确保机器学习系统的决策由高标准数据质量驱动。该框架集成了支持机器学习模型训练和维护的数据质量评估方法,全部在MLOps实践背景下实现。如图4所示,框架包含两个主要阶段:初始化阶段(构建系统工件)和部署阶段(在生产环境中持续操作和适应)。每个阶段都由元数据存储支持,作为系统生命周期中使用的配置中心存储库。
初始化阶段的核心任务是初始化和准备系统部署所需的工件。如图5所示,三个关键元素构成了系统工件的开发管道基础:漂移检测机制设置、数据质量评分模块和数据质量感知机器学习模型开发。漂移检测机制创建用于生产监控和计算相关数据质量评分的关键元信息;数据质量评分模块评估传入数据的各种质量维度并分配分数;数据质量感知机器学习模型开发则创建 inherently 考虑数据质量分数的机器学习模型。
漂移检测设置采用了一种自适应方法,无需预定义阈值即可动态适应变化条件。如图6所示,该过程涉及将数据集分割为数据窗口,为这些窗口构建概率密度函数(PDF),并计算这些PDF与基线数据参考分布之间的散度。基于计算的散度值构建分布,随着收集更多数据窗口而演化,在生产阶段能够评估观测数据窗口的变化程度与正常变化值的偏离程度。
数据质量评分模块评估传入数据在多个数据质量维度上的质量。如图2所示,该模块基于预定义的数据质量维度集评估收集的数据窗口,并分配一个反映整体数据质量的统一分数。研究人员选择了与工业应用特别相关的数据质量维度:准确性(评估记录数据与其预期真实世界表示的对齐程度)、完整性(评估数据窗口的全面性,检测和量化缺失值)、一致性(评估观测值是否遵守定义的完整性约束)、及时性(通过拟合优度检验评估数据的时效性)和偏度(使用Jensen-Shannon散度(JSD)值量化数据窗口分布与参考分布的偏差)。
考虑到计算这些分数所需的巨大计算资源,特别是在数据实时到达且量大的实际应用中,采用了基于机器学习的成本效益方法。该方法利用在标注真实数据上训练的机器学习模型,根据质量属性对传入数据进行标记。XGBoost模型被选为实现数据质量评分模型,因其在工业数据流中表现出高效的数据处理能力和优越性能。
数据质量感知机器学习模型开发过程专注于创建将数据质量评估纳入训练过程的机器学习模型。如图7所示,该阶段直接整合数据质量分数以增强模型的鲁棒性和性能。过程从训练数据准备开始,原始数据由数据质量评分模块生成的质量分数进行标注,然后筛选数据以获取符合质量标准的训练数据集,涉及移除质量分数低于可接受阈值的数据,确保仅使用高质量数据训练模型。
部署阶段使用初始化阶段准备的系统工件,在生产环境中持续操作和演化。该阶段的主要组件包括持续集成(CI)打包、持续部署(CD)服务和系统持续监控。如图8所示,部署管道从数据源摄取数据窗口开始,收集的数据窗口被馈送到两个主要服务:持续监控和机器学习模型服务。持续监控检查数据中的显著变化以激活适应信号,而机器学习模型服务确保训练模型可随时用于实时推理请求。这种监控和适应的迭代过程是自适应机器学习系统的基石,使其能够动态响应生产环境中的演化条件。
持续漂移监控服务涉及实时检测可能影响模型性能的数据分布变化。该服务持续摄取实时生产数据,并将其统计属性与初始化阶段产生的参考工件进行比较。当漂移检测器识别到显著变化时,会触发警报以提示适应信号更新相关工件。这种适应过程涉及重新训练用于推理和评分的机器学习模型,数据质量分数和参考数据分布等工件也会更新以反映当前条件。
机器学习模型服务旨在促进从开发到部署的过渡,确保训练模型可随时用于实时预测请求。框架包含两种主要类型的机器学习模型:数据质量评分模型和机器学习推理模型。数据质量评分模型作为回归器评估生产数据并评分,机器学习推理模型做出与工业任务相关的预测,支持并优化工业过程的适当行动。
实验结果与分析
提出的数据质量驱动机器学习框架已集成到一个全面的AI系统中,旨在改进工业环境中的决策过程。为评估其有效性,框架在真实场景中实施:瑞典Uddeholm钢铁制造公司的电渣重熔(ESR)真空泵送过程。该AI驱动应用通过监控和管理压力水平来确保高质量的钢铁生产。
实验评估了框架在漂移检测能力、数据质量可接受阈值对预测精度的影响以及实时处理延迟方面的性能。基线设置对应于不采用任何适应机制的标准方法,既无主动也无被动漂移检测,仅依赖静态模型推理。改进的预测性能是相对于此基线计算的,所有实验使用一致的评估设置和等效的训练-测试分割。
数据质量阈值和参数选择方面,研究人员评估了模型在不同数据质量可接受阈值下的性能。这些阈值代表预计算的介于0和100之间的数据质量分数,用于过滤训练机器学习推理模型的数据。测试了0%、25%、50%、75%和90%的比率,以探索数据质量如何影响模型精度。如图9所示,阈值0%意味着数据不基于质量分数过滤,导致使用所有可用数据进行训练;而较高阈值减少了训练中包含的数据,90%阈值过滤了约47%的完整数据集。
为验证适应方法的效率,研究人员比较了集成被动和主动漂移检测器的系统性能。对于被动漂移检测(基于预定义窗口大小更新系统工件),通过在生产衍生验证数据上进行广泛经验调优,选择了窗口大小(w=50,100,200)。对于主动漂移检测(持续评估传入数据并在检测到分布变化时立即触发适应),仔细校准了阈值值(τ=0.04,0.06,0.08)。
预测性能方面,通过在不同场景中的全面实验评估了数据质量驱动机器学习框架的预测能力。具体而言,使用平均绝对误差(MAE)和R2值在不同数据质量可接受阈值下测量预测性能。评估过程涉及将框架应用于不同水平的数据质量,以了解其对模型准确性和可靠性的影响。
如图10(a)和(b)所示,机器学习模型性能随训练数据质量的变化而变化。具体观察到,随着训练集数据质量的提高,错误率在一定程度上有所下降。然而,随着更多数据点被过滤掉,错误率开始增加,表明训练所需的重要信息丢失。实验显示,中等水平的数据质量过滤,特别是25%的可接受阈值,产生了最佳预测性能。该阈值有效过滤了最有问题的数据点,而没有过度减少数据集大小。然而,超过此阈值后,随着数据质量可接受阈值的增加,性能开始显著下降,特别是在过滤达到90%时,揭示了数据质量和模型精度之间的权衡。
(b) Distribution of R2across various data quality ratios.
此外,研究发现更多适应导致主动和被动方法的更好预测性能,如图11(a)和(b)总结。具体而言,对于25%的可接受阈值,主动方法的τ=0.08实现MAE值低于0.51,R2值约94;而被动方法的w=50实现MAE低于0.58,R2约92的优越性能。标准方法虽然总体有效,但显示略高的MAE值(高于0.58)和R2值约93,表明主动方法在预测准确性方面优于它。
(b) Temporal evolution of R2across different adaptation strategies under the 50% acceptability threshold.
图12显示了50%数据质量可接受阈值下不同适应策略的模型性能时间演变,图12(a)展示MAE,图12(b)展示R2。主动适应策略(τ=0.08)表现出更平滑的收敛性,性能指标比被动方法更早稳定。被动方法的两种窗口大小(w=50,200)都表现出更明显的波动,特别是在概念漂移期间,揭示了它们响应分布变化的内在延迟。50%阈值似乎达成了有效平衡——保持足够的训练数据量同时过滤关键质量问题,如主动方法在初始适应阶段后持续R2>0.92所证明。
预测延迟方面,数据质量驱动机器学习框架的预测延迟是一个关键因素,特别是在需要实时决策的工业应用中。延迟指的是从数据摄取到可操作预测可用之间经过的时间。框架设计优先考虑最小化延迟,以确保在高风险环境中的有效操作。
表1比较了不同数据质量评估方法在不同可接受阈值和适应设置下的累积预测延迟(以秒为单位)。标准方法(不采用漂移检测)显示高延迟值,从801.83秒开始,在最高阈值时降至521.97秒。相比之下,主动方法表现出显著较低的延迟,在不同配置下具有不同的计算影响。τ=0.04时,系统保持相对较低的开销,显示延迟在147.31秒到88.53秒之间,同时实现有效的漂移检测。将适应敏感性增加到τ=0.08导致更高的计算成本,延迟范围从193.33秒到105.50秒,表示基本处理时间增加约31%。这种增加与执行的适应次数相关——τ=0.04为9次适应,而τ=0.08为20次。然而,尽管计算成本更高,τ=0.08实现了MAE值低于0.51和R2值约94%的优越预测性能,表明额外的计算投资产生了模型准确性的切实改进。被动方法表现出中间性能,窗口大小w=50显示延迟范围从286.23秒到137.75秒。
除了累积延迟分析,监控预测延迟随系统处理数据时间的趋势也至关重要。图13说明了每种方法随着更多数据流过系统时累积经过时间的进展,提供了对每种方法效率的洞察。以使用可接受阈值0的完整数据集场景为例,观察到不同方法的延迟累积速率存在显著变化。标准方法表现出快速且近乎线性的延迟增加,导致最大延迟801.83秒。这种急剧升级突出了标准方法的低效率,特别是随着数据量增加时,使其不适合需要快速预测的环境。相比之下,主动方法表现出更保守和受控的延迟增加。具体而言,主动方法保持累积经过时间的稳定、逐渐增加。这种趋势显示了管理更大数据集而不会经历显著延迟峰值的效率,确保预测交付保持及时。被动方法在延迟进展方面较不保守,倾向于随着数据增长更明显地扩展。虽然仍比标准方法更高效,但被动方法表现出更紧密跟随数据量增加的延迟趋势,使得它们在最小化延迟至关重要的实时场景中效率较低。
数据质量和预测模型性能相关性方面,为探索数据质量和推理机器学习模型性能之间的关系,进行了MAE和R2性能指标的相关性分析。图14显示热图,说明了这些相关性在不同可接受阈值和适应方法间的情况。热图揭示了数据质量分数与MAE(图14(a))和R2指标(图14(b))之间普遍存在正相关关系,所有方法和阈值均如此。这种强正关系表明更高的数据质量通常对应于更好的模型性能,从而验证了数据质量驱动方法的有效性。此外,这种相关性的强度在不同可接受阈值间变化,大多数方法在50%阈值处显示峰值相关性。这表明此中等范围阈值可能代表框架数据质量评估的最佳平衡点。
主动漂移检测方法,特别是τ=0.08,在50%阈值处显示最强的相关性(MAE为0.82,R2为0.76)。较小窗口大小(w=50,100)的被动方法表现相当,而较大窗口大小(w=200)显示独特行为,在90%阈值处对MAE有最高相关性。R2相关性通常高于MAE相关性,表明数据质量可能对整体模型拟合有比绝对预测误差更强的影响。主动和被动方法在极端阈值(0%和90%)处显示相关性降低,表明中等质量标准产生最佳结果。这些发现突出了自适应方法在将数据质量与模型性能对齐方面的有效性。分析为调整数据质量驱动机器学习框架提供了关键洞察,有助于优化工业应用中质量标准和预测性能之间的平衡。
研究结论与意义
数据质量驱动机器学习框架在ESR真空泵送过程中的集成提供了几个关键洞察和教训,可指导未来在工业环境中的实施:
最优数据质量阈值方面,中等数据质量可接受阈值产生了最佳预测性能。这一发现表明,虽然过滤低质量数据是有益的,但过于严格可能导致有价值信息的丢失。延迟与准确性之间的权衡方面,结果明确显示了减少延迟和保持准确性之间的权衡。虽然更高的数据质量阈值由于数据集更小而减少延迟,但它们也冒着降低模型准确性的风险。具有自适应阈值的主动方法展示了最佳平衡,提供减少的延迟而没有预测性能的显著牺牲。
数据质量与模型性能相关性方面,数据质量与机器学习模型性能之间通常存在强相关性。更高的数据质量倾向于与更好的预测指标相关,如更低的错误率和更高的模型拟合度。这种关系证明了在整个机器学习管道中集成数据质量评估的重要性。模型无关框架设计方面,设计模型无关的框架增强了灵活性和可扩展性,允许基于特定应用需求集成不同的机器学习模型。这种适应性在工业环境中特别有价值,其中要求可能因用例或操作约束而异。可扩展性考虑方面,延迟分析揭示了主动方法随着数据量增加比被动和标准方法更有效扩展。这使得主动方法特别适合大规模、实时工业应用。
该研究提出的数据质量驱动机器学习框架有效集成了数据质量评估与机器学习模型操作在实时生产环境中。框架在ESR真空泵送过程中的实施证明了其在保持效率的同时增强工业环境中决策过程的能力。框架的自适应方法,特别是主动漂移检测方法,在预测准确性和延迟方面显示出优于标准方法的性能。此外,系统与标准方法相比展示了预测延迟的显著减少,特别是在使用主动漂移检测方法时。延迟的这种改进对于快速决策至关重要的实时工业应用至关重要。此外,观察到数据质量评分与机器学习推理模型性能指标(MAE和R2)之间的强正相关性,验证了数据质量驱动方法的有效性,确认了框架的有效性并突出了高标准数据质量在机器学习系统中的重要性。框架动态适应变化数据分布的能力确保了在非平稳工业环境中一致的模型性能。这种适应性在条件可能快速意外变化的工业环境中特别有价值。
这些结果强调了在MLOps实践中集成数据质量评估以改善工业应用中机器学习系统的鲁棒性和可靠性的重要性。未来工作可聚焦于几个重要领域以进一步扩展框架。探索框架适应更广泛数据类型和工业过程的能力将展示其灵活性和对各种背景的适用性。此外,集成新的实时监控工具和反馈机制也可提供更细粒度的系统性能洞察,实现持续改进和响应性。解决这些领域将确保框架随着工业环境和数据复杂性的演化保持鲁棒和有效。
该研究发表于《Heliyon》期刊,为工业人工智能领域提供了重要的理论和实践贡献,特别是在实时机器学习系统优化方面。通过将数据质量评估深度集成到MLOps流程中,研究为解决生产环境中机器学习模型性能维护的长期挑战提供了创新解决方案。框架在真实工业场景中的成功验证为其在更广泛领域的应用奠定了基础,包括智能制造、工业物联网和实时决策支持系统等。随着工业4.0的持续推进和人工智能技术在工业环境中更深入的应用,这种数据质量驱动的方法预计将发挥越来越重要的作用。