PLSELM:一种适用于近红外光谱中低数据量校准的轻量级建模方法
《Analytica Chimica Acta》:PLSELM: A lightweight modeling approach for low-data calibration in near-infrared spectroscopy
【字体:
大
中
小
】
时间:2025年10月02日
来源:Analytica Chimica Acta 6
编辑推荐:
PLSELM是一种融合部分最小二乘回归(PLS)评分矩阵与集成极端学习机(ELM)的轻量级近红外光谱校准方法,有效解决小样本和跨仪器校准难题,实验验证其性能优于传统PLS、SVM及深度学习模型,且具有快速、鲁棒、可迁移特性。
近红外(NIR)光谱技术作为一种快速分析方法,近年来在多个领域得到了广泛应用。其优势在于能够实现在线监测和无损检测,这意味着在不破坏样品的前提下,可以快速获取样品的化学信息。NIR光谱能够揭示物质结构、成分及其变化的特征,对于研究和应用具有重要意义。然而,在实际应用中,NIR光谱校准仍然是一个重大挑战,尤其是在数据量较少或不同仪器配置下进行跨仪器校准时,这一问题尤为突出。为了应对这些挑战,本文提出了一种轻量级的校准建模方法,即PLSELM(Partial Least Squares Ensemble Extreme Learning Machine),该方法结合了偏最小二乘(PLS)得分矩阵与集成极端学习机(ELM)。
PLSELM的核心思想是利用PLS方法提取出的潜在变量作为输入,结合ELM的快速学习能力,构建一个更高效的校准模型。PLS方法在NIR光谱分析中已被广泛应用,它通过将原始数据投影到一组潜在变量上,实现数据降维并提取重要的化学信息。这种方法在处理高维数据时表现出色,同时在小样本数据情况下也能提供较好的拟合效果。而ELM作为一种单层前馈神经网络,因其随机初始化和轻量级结构,在训练速度和泛化性能方面具有显著优势。通过将PLS得分矩阵与ELM相结合,PLSELM不仅继承了PLS在数据降维和潜在变量提取方面的优点,还利用了ELM在模型训练和预测方面的高效性。
为了验证PLSELM的校准性能,本文使用了五组不同的NIR光谱数据,其中包括来自10种不同光谱仪的21组浓度指标。这些数据具有不同的波长范围、分辨率、长度以及浓度水平,能够全面反映NIR光谱数据的多样性。通过对这些数据集的综合评估,PLSELM在多个方面表现出色。首先,它在低数据条件下的泛化能力较强,这意味着即使在样本数量有限的情况下,PLSELM也能提供可靠的校准结果。其次,PLSELM在跨仪器校准任务中展现出良好的稳定性,能够适应不同仪器的配置差异,确保校准模型在不同设备上的适用性。此外,PLSELM的计算效率也得到了验证,例如在玉米数据集上,PLSELM和PLS模型的训练时间仅为0.5秒,这表明该方法在实际应用中具有较高的可行性。
在实际应用中,NIR光谱技术广泛应用于农业、食品工业、临床医学、药品分析、化学工业和环境监测等领域。在这些应用中,NIR光谱不仅能够提供丰富的化学信息,还能用于识别和定量分析特定成分。然而,传统的多变量校准方法,如PLS、区间PLS(iPLS)、三步渐进混合变量选择策略、基于等效变量的方法、移动窗口偏最小二乘回归(MWPLSR)、迭代保留信息变量(IRIV)等,虽然在某些情况下表现出色,但在处理低数据量或跨仪器校准问题时仍存在一定的局限性。此外,基于深度学习的校准方法虽然在特征提取和数据挖掘方面表现出色,但通常需要大量的数据进行训练,且模型的可重复性和准确性往往随着样本数量的增加而提高。在小样本数据情况下,深度学习技术的优势难以充分发挥。另一方面,大多数基于深度学习的模型采用卷积神经网络(CNN)结构,这需要对多个超参数进行优化,如卷积层数、卷积核数量和卷积尺寸,而这些参数的优化在不同数据集上可能会产生不同的结果,增加了模型调整的复杂性。
为了克服上述问题,本文提出了一种基于集成ELM的校准策略,即PLSELM。该方法的核心在于直接利用PLS得分矩阵构建校准模型,从而结合了PLS在潜在变量提取方面的优势和ELM在模型训练和预测方面的高效性。PLSELM不仅能够提高校准模型的准确性,还能在低数据量条件下保持良好的泛化能力,同时在跨仪器校准任务中表现出色。通过对多个数据集的评估,PLSELM在不同波长范围、分辨率、长度和浓度水平的NIR光谱数据上均展现出稳定的性能。这些结果表明,PLSELM不仅适用于高精度的校准任务,还能够满足实际应用中对数据量和计算效率的要求。
PLSELM的提出,不仅为NIR光谱校准提供了一种新的解决方案,也为处理低数据量和跨仪器校准问题提供了新的思路。在实际应用中,PLSELM的轻量级结构使其能够快速适应不同的数据环境,同时其高计算效率也使得该方法在资源受限的场景下具有较大的应用潜力。此外,PLSELM的稳定性使其能够在不同仪器配置下保持一致的校准效果,这对于需要跨设备进行分析的应用场景尤为重要。例如,在农业和食品工业中,不同实验室或现场设备可能会有不同的光谱配置,PLSELM能够有效解决这种配置差异带来的校准问题,从而提高分析结果的可靠性和一致性。
从方法论的角度来看,PLSELM的构建过程包括以下几个关键步骤。首先,通过PLS方法对校准数据集进行分析,提取出潜在变量并生成PLS得分矩阵。这些得分矩阵能够捕捉到NIR光谱中与成分浓度相关的潜在信息,为后续的校准建模提供基础。其次,利用集成ELM方法对这些得分矩阵进行建模,构建一个能够准确预测成分浓度的校准模型。集成ELM方法通过多次应用ELM到不同的光谱子区域,并结合权重策略对预测结果进行融合,从而提高模型的鲁棒性和泛化能力。这种方法不仅能够减少模型对特定样本的依赖性,还能在不同数据集上保持较好的一致性。
PLSELM的优势在于其能够在保持模型精度的同时,显著提高计算效率。在玉米数据集上的测试表明,PLSELM和PLS模型的训练时间仅为0.5秒,这说明该方法在实际应用中具有较高的可行性。此外,PLSELM在低数据条件下的表现尤为突出,能够在样本数量较少的情况下依然提供可靠的校准结果。这种能力对于资源有限或数据获取困难的场景具有重要意义,例如在某些偏远地区或特定行业中,数据量可能受到限制,而PLSELM能够有效应对这一挑战。
从应用角度来看,PLSELM的跨仪器校准能力使其在实际操作中具有较大的灵活性。在不同仪器上采集的NIR光谱数据可能存在一定的差异,例如波长范围、分辨率和数据长度等。传统的校准方法往往需要针对每种仪器单独进行建模,这不仅增加了工作量,还可能导致模型之间的不一致性。而PLSELM通过利用PLS得分矩阵,能够在不同仪器之间实现模型的迁移,从而减少重复建模的需要,提高校准效率。这种迁移能力对于需要在多个设备上进行分析的场景尤为重要,例如在农业监测中,不同地区的监测设备可能会有不同的配置,而PLSELM能够有效适应这些变化,确保校准结果的一致性。
此外,PLSELM在实际应用中的鲁棒性也值得肯定。在模型训练过程中,PLSELM对样本划分的随机性和隐藏层节点的随机性表现出较低的敏感性,这意味着即使在数据分布不均或隐藏层节点数量变化的情况下,PLSELM仍然能够保持较高的预测精度。这种鲁棒性不仅提高了模型的可靠性,还增强了其在实际应用中的适应性。例如,在临床医学和药品分析中,样本的随机性可能会对模型的性能产生一定影响,而PLSELM能够有效减少这种影响,确保校准结果的稳定性。
PLSELM的提出,不仅解决了传统校准方法在低数据量和跨仪器校准中的不足,还为深度学习方法在NIR光谱分析中的应用提供了新的思路。相比于传统的深度学习模型,PLSELM在保持高精度的同时,显著降低了计算复杂度,使得其在资源受限的场景下更具优势。此外,PLSELM的轻量级结构使其能够快速适应不同的数据环境,从而在实际应用中具有更高的灵活性和可扩展性。这些优势使得PLSELM在NIR光谱校准领域具有广阔的应用前景,尤其是在需要处理低数据量或跨仪器校准问题的场景中。
总的来说,PLSELM作为一种新的校准方法,结合了PLS在潜在变量提取方面的优势和ELM在模型训练和预测方面的高效性,为NIR光谱分析提供了一种更加稳定、高效和实用的解决方案。通过在多个数据集上的测试,PLSELM不仅在低数据量条件下表现出良好的泛化能力,还在跨仪器校准任务中展现出优异的性能。这些结果表明,PLSELM在实际应用中具有较高的可行性,能够满足不同场景下的校准需求。未来,PLSELM有望在更多领域得到应用,为NIR光谱分析技术的发展提供新的动力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号