Locally-Weighted-RoBoost-PLS:同时应对非线性和异常值的多元校准新方案

【字体: 时间:2025年05月09日 来源:Analytica Chimica Acta 5.7

编辑推荐:

  在处理多元数据集时,偏最小二乘法回归(PLS)面临非线性关系和异常值的挑战。研究人员提出 Locally-Weighted-RoBoost-PLS(LW-RoBoost-PLS)方法。该方法结合局部和稳健建模策略,在模拟和真实工业数据测试中表现出色,有效提高预测准确性、降低偏差。

  在科学研究和工业生产等诸多领域,数据处理是一项至关重要的任务。偏最小二乘法回归(Partial Least Squares regression,PLS)作为一种广泛应用的多元校准工具,在处理具有高度共线性的高维数据集时表现出色,能够构建自变量和因变量之间的模型,并通过潜在因子对二者进行全面描述,助力深入解读最终结果。然而,现实世界的数据往往十分复杂,PLS 在面对变量间的非线性关系以及数据中的异常值时,就会暴露出严重的局限性。
当处理不同收获季节采集的农艺样本,或者工业中同一工厂因产品配方变化、原材料或催化剂降解导致生产过程出现时间漂移时,变量之间常常呈现非线性关系。如果非线性程度较轻,还能通过对响应变量进行非线性变换(如对数变换)来处理;但在更为复杂的情况下,就需要考虑非线性的 PLS 实现方式,像核偏最小二乘法(Kernel PLS,K-PLS)或局部 PLS。K-PLS 借助特定的核函数(多项式、高斯、S 形等)将原始自变量映射到高维特征空间,进而构建线性 PLS 模型,不过核函数的优化是个难题,在存在局部非线性时更是麻烦,而且模型的可解释性较差,处理大样本数据时耗时也长。局部 PLS 则是为每个待预测的新样本,基于与其最相似的校准样本子集构建单独的 PLS 模型,其中 K 近邻局部加权偏最小二乘法(K-Nearest-Neighbours-Locally-Weighted-PLS-Regression,KNN-LW-PLS)备受关注,它能根据样本间的距离对校准子集样本进行加权,有效捕捉数据中的非线性和复杂模式。

与此同时,校准数据中的异常值也会严重影响标准 PLS 的预测性能。为此,研究人员开发出许多稳健版本的 PLS,试图降低异常样本的权重,减少其对模型校准的影响。其中,稳健提升偏最小二乘法(RoBoost-PLS)较为突出,它依据 X 残差、Y 残差和杠杆这三个不同标准,为每个提取的潜在因子对样本进行差异化加权,在处理 X 和 Y 中的异常值方面效果显著。

尽管这些 PLS 的扩展方法在应对各自针对的特定问题时表现良好,但当非线性和异常值同时存在时,它们往往就力不从心了。目前,还没有一种 PLS 算法能够同时妥善处理这两个问题。在这样的背景下,来自未知研究机构的研究人员提出了一种全新的方法 ——Locally-Weighted-RoBoost-PLS(LW-RoBoost-PLS),将 KNN-LW-PLS 和 RoBoost-PLS 的优势相结合,旨在攻克这一难题。该研究成果发表在《Analytica Chimica Acta》上,为相关领域的数据处理带来了新的曙光。

研究人员开展此项研究时,主要运用了以下关键技术方法:首先,使用 R 软件包生成模拟数据,该软件包由 Metz 等人开发,可从https://github.com/maxmetz/data_simulation获取;其次,采用真实世界中与丙烯腈 - 丁二烯 - 苯乙烯(ABS)生产过程相关的数据集进行实验。通过这两类数据,全面评估 LW-RoBoost-PLS 的性能。

研究结果


  1. 模拟数据测试:研究人员利用上述模拟数据对 LW-RoBoost-PLS 进行测试。结果显示,在存在异常值和非线性变量关系的模拟数据环境下,LW-RoBoost-PLS 的预测误差和预测偏差相比 RoBoost-PLS 和 KNN-LW-PLS 有显著降低。这表明该方法在处理模拟的复杂数据时,能够有效克服其他两种方法的局限性,展现出更优异的预测性能。
  2. 真实工业数据测试:研究人员将该方法应用于来自 Versalis S.p.A. 公司连续 ABS 生产过程的真实工业数据。实验结果再次验证,LW-RoBoost-PLS 在处理真实复杂数据时表现卓越。与 RoBoost-PLS 和 KNN-LW-PLS 相比,它在预测误差和预测偏差上有可观的减少,进一步证明了其在实际工业生产数据处理中的有效性。

研究结论和讨论


在这项研究中,研究人员成功提出了一种基于 PLS 的全新多元校准方法 ——LW-RoBoost-PLS。该方法巧妙地融合了 KNN-LW-PLS 和 RoBoost-PLS 的操作原理,采用双重加权方案。这种独特的组合使其能够在回归模型校准过程中,同时应对自变量和因变量之间的非线性关系,以及异常值带来的不利影响。

通过模拟数据和真实工业数据的测试,LW-RoBoost-PLS 在预测准确性方面表现出色,显著降低了预测误差和预测偏差。这一成果意义重大,为在非线性和异常值共存的复杂场景下进行预测建模提供了有效的解决方案。无论是在工业生产中的质量控制、过程优化,还是在科学研究的数据处理等领域,LW-RoBoost-PLS 都具有广阔的应用前景,有望推动相关领域的进一步发展。它打破了传统 PLS 扩展方法的局限,为后续的研究和实际应用开辟了新的道路,为更精准的数据分析和预测提供了有力支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号