
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在将机器学习应用于制造业之前,需要先建立一个数据筛选框架
《JOURNAL OF INTELLIGENT MANUFACTURING》:A data screening framework before engaging machine learning in manufacturing
【字体: 大 中 小 】 时间:2025年11月01日 来源:JOURNAL OF INTELLIGENT MANUFACTURING 7.4
编辑推荐:
工业制造中机器学习部署受限于数据质量差,提出Tao Index结合拓扑(距离、密度、维度)和统计(MMD、K-S距离)方法评估数据质量,预测模型性能,减少资源浪费,实验验证其有效性优于现有方法。
机器学习(ML)技术有潜力通过提高生产效率、减少缺陷和实现智能过程控制来彻底改变工业制造领域。然而,由于数据质量较差,在制造业中应用ML面临着重大挑战。工业数据往往不完整或不完美,而且获取高质量标记数据需要大量资源。尝试在低质量数据上训练ML模型会浪费时间和资源。然而,往往并不清楚数据的质量是否足以进行建模;总是存在一定数量的缺失或不完美的数据元素。这些挑战凸显了需要强大的数据质量评估和筛选方法,以指导进一步的数据预处理或判断数据是否适合用于ML模型训练。尽管文献中存在各种数据质量指标,但它们在制造业质量控制领域的具体表达和应用尚未得到充分研究。本文提出了Tao指数,这是一种结合拓扑学和统计学方法的综合数据质量评估指标。它将局部拓扑指标(如距离、密度和内在维度)与全局统计量(包括最大均值差异(MMD)和Kolmogorov-Smirnov(K-S)距离)相结合。Tao指数能够快速预测ML模型的性能,有助于避免投资于性能低下的模型,并指导数据清洗、收集和趋势分析。在基准数据和真实世界数据集上的广泛实验表明,Tao指数提供了现实的数据质量评估结果,在所有可分离的数据集中,其与估计的真实值的偏差均低于10%。该指数在多种制造场景中表现优于现有指标,并且在不同工业领域具有良好的泛化能力。Tao指数被视为制造业中ML分析的标准第一步,确保数据的高效和有效利用。
机器学习(ML)技术有潜力通过提高生产效率、减少缺陷和实现智能过程控制来彻底改变工业制造领域。然而,由于数据质量较差,在制造业中应用ML面临着重大挑战。工业数据往往不完整或不完美,而且获取高质量标记数据需要大量资源。尝试在低质量数据上训练ML模型会浪费时间和资源。然而,往往并不清楚数据的质量是否足以进行建模;总是存在一定数量的缺失或不完美的数据元素。这些挑战凸显了需要强大的数据质量评估和筛选方法,以指导进一步的数据预处理或判断数据是否适合用于ML模型训练。尽管文献中存在各种数据质量指标,但它们在制造业质量控制领域的具体表达和应用尚未得到充分研究。本文提出了Tao指数,这是一种结合拓扑学和统计学方法的综合数据质量评估指标。它将局部拓扑指标(如距离、密度和内在维度)与全局统计量(包括最大均值差异(MMD)和Kolmogorov-Smirnov(K-S)距离)相结合。Tao指数能够快速预测ML模型的性能,有助于避免投资于性能低下的模型,并指导数据清洗、收集和趋势分析。在基准数据和真实世界数据集上的广泛实验表明,Tao指数提供了现实的数据质量评估结果,在所有可分离的数据集中,其与估计的真实值的偏差均低于10%。该指数在多种制造场景中表现优于现有指标,并且在不同工业领域具有良好的泛化能力。Tao指数被视为制造业中ML分析的标准第一步,确保数据的高效和有效利用。
生物通微信公众号
知名企业招聘