在将机器学习应用于制造业之前,需要先建立一个数据筛选框架

《JOURNAL OF INTELLIGENT MANUFACTURING》:A data screening framework before engaging machine learning in manufacturing

【字体: 时间:2025年11月01日 来源:JOURNAL OF INTELLIGENT MANUFACTURING 7.4

编辑推荐:

  工业制造中机器学习部署受限于数据质量差,提出Tao Index结合拓扑(距离、密度、维度)和统计(MMD、K-S距离)方法评估数据质量,预测模型性能,减少资源浪费,实验验证其有效性优于现有方法。

  

摘要

机器学习(ML)技术有潜力通过提高生产效率、减少缺陷和实现智能过程控制来彻底改变工业制造领域。然而,由于数据质量较差,在制造业中应用ML面临着重大挑战。工业数据往往不完整或不完美,而且获取高质量标记数据需要大量资源。尝试在低质量数据上训练ML模型会浪费时间和资源。然而,往往并不清楚数据的质量是否足以进行建模;总是存在一定数量的缺失或不完美的数据元素。这些挑战凸显了需要强大的数据质量评估和筛选方法,以指导进一步的数据预处理或判断数据是否适合用于ML模型训练。尽管文献中存在各种数据质量指标,但它们在制造业质量控制领域的具体表达和应用尚未得到充分研究。本文提出了Tao指数,这是一种结合拓扑学和统计学方法的综合数据质量评估指标。它将局部拓扑指标(如距离、密度和内在维度)与全局统计量(包括最大均值差异(MMD)和Kolmogorov-Smirnov(K-S)距离)相结合。Tao指数能够快速预测ML模型的性能,有助于避免投资于性能低下的模型,并指导数据清洗、收集和趋势分析。在基准数据和真实世界数据集上的广泛实验表明,Tao指数提供了现实的数据质量评估结果,在所有可分离的数据集中,其与估计的真实值的偏差均低于10%。该指数在多种制造场景中表现优于现有指标,并且在不同工业领域具有良好的泛化能力。Tao指数被视为制造业中ML分析的标准第一步,确保数据的高效和有效利用。

机器学习(ML)技术有潜力通过提高生产效率、减少缺陷和实现智能过程控制来彻底改变工业制造领域。然而,由于数据质量较差,在制造业中应用ML面临着重大挑战。工业数据往往不完整或不完美,而且获取高质量标记数据需要大量资源。尝试在低质量数据上训练ML模型会浪费时间和资源。然而,往往并不清楚数据的质量是否足以进行建模;总是存在一定数量的缺失或不完美的数据元素。这些挑战凸显了需要强大的数据质量评估和筛选方法,以指导进一步的数据预处理或判断数据是否适合用于ML模型训练。尽管文献中存在各种数据质量指标,但它们在制造业质量控制领域的具体表达和应用尚未得到充分研究。本文提出了Tao指数,这是一种结合拓扑学和统计学方法的综合数据质量评估指标。它将局部拓扑指标(如距离、密度和内在维度)与全局统计量(包括最大均值差异(MMD)和Kolmogorov-Smirnov(K-S)距离)相结合。Tao指数能够快速预测ML模型的性能,有助于避免投资于性能低下的模型,并指导数据清洗、收集和趋势分析。在基准数据和真实世界数据集上的广泛实验表明,Tao指数提供了现实的数据质量评估结果,在所有可分离的数据集中,其与估计的真实值的偏差均低于10%。该指数在多种制造场景中表现优于现有指标,并且在不同工业领域具有良好的泛化能力。Tao指数被视为制造业中ML分析的标准第一步,确保数据的高效和有效利用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号