近红外光谱预测汽油中烯烃含量:一种基于连续区域特征选择和区域敏感集成学习的系统化方法
《Chemometrics and Intelligent Laboratory Systems》:Near-Infrared Spectroscopic Prediction of Gasoline Olefin Content: A Systematic Approach Using Continuous Region Feature Selection and Region-Sensitive Ensemble Learning
【字体:
大
中
小
】
时间:2026年02月09日
来源:Chemometrics and Intelligent Laboratory Systems 3.8
编辑推荐:
基于近红外光谱的高维共线性与区域信息异质性优化研究,提出CRUISE-NIR算法与RAEL框架组合方法,将4,443个原始变量缩减至16个关键特征,通过区域自适应加权集成提升预测精度,测试集RMSE达0.2795,R2为0.9646,并验证了框架在多物理状态样本中的鲁棒性。
崔家学|张大为|徐邦联|范建中|曹向龙
上海科技大学出版学院,中国上海200093
摘要
本研究针对近红外光谱中高维共线性和区域信息异质性对汽油烯烃含量预测的挑战,提出了一种系统优化方法,该方法结合了连续区域利用集成光谱评估的近红外(CRUISE-NIR)算法和区域敏感自适应集成学习(RAEL)框架。CRUISE-NIR算法将光谱分析从“点”视角转变为“区域”视角,充分考虑了相邻波长的物理相关性和化学先验知识,将4,443个原始变量减少到16个关键特征。同时,RAEL框架根据不同光谱区域中样本的性能特征动态调整预测权重,实现针对样本的精确预测。实验结果表明,所提出的方法在测试集上的均方根误差(RMSE)为0.2795,决定系数(R2)为0.9646,显著优于传统方法在预测准确性和拟合能力方面的表现。此外,该框架在包括SWRI柴油、IDRC片剂和土壤在内的异质矩阵上的鲁棒性得到了验证,显示出在多种液体和固体物理状态下的通用性。实验结果表明,优先选择高质量特征而非仅仅关注变量数量能够显著提升模型性能。所提出的系统框架展示了在多样化和复杂的分子系统中处理高维光谱数据的强大分析能力。
引言
近红外(NIR)光谱技术由于其快速、无损、经济和便捷的特性,已成为食品、环境、农业和石化等多个领域智能制造和数字化转型的关键技术[1]、[2]、[3]。与传统化学分析方法相比,NIR光谱技术显著提高了质量控制精度和生产效率,并通过实时监测关键生产参数简化了分析工作流程[4]、[5]。它能够同时捕获多组分信息,为产品质量评估和工艺优化提供了强大的数据支持[6]、[7]。
在石化行业中,烯烃含量是影响燃料质量的关键参数[8]、[9]。传统测定方法不仅耗时且劳动强度高,还依赖于大量有机溶剂,这与绿色化学原则相悖,也无法满足现代工业的实时监测要求[10]、[11]。因此,基于NIR光谱技术的快速、无损检测方法具有重要的实际价值。然而,汽油样本的NIR光谱通常包含数千个波长变量,这些变量表现出高度共线性,并对样本条件的微小变化极为敏感[12]。此外,并非所有光谱变量都对预测模型有正面贡献;某些波长区域与烯烃分子结构密切相关,而其他区域可能主要包含噪声和干扰信息[13]。
NIR光谱建模在工业分析和实时质量控制应用中面临两个核心挑战:波长特征选择的复杂性和光谱区域信息的异质性[14]、[15]。全波长光谱通常包含4,000-10,000个波长变量,这些变量不仅具有高度共线性,还包含大量冗余和噪声,从而给模型构建带来了“维数灾难”和过拟合风险[16]、[17]。在工业实时监测环境中,这一困难更加突出,因为有效样本数量往往远少于特征维度[18]、[19]。
尽管NIR光谱技术在石化领域取得了显著进展,但从高维光谱中选择有信息量的波长变量仍然是一个关键挑战。目前,变量选择方法大致分为三类:基于滤波器的方法(如无信息变量消除UVE)、基于包装器的方法(如竞争自适应重采样CARS、连续投影算法SPA)和基于区间的策略(如区间偏最小二乘iPLS)。基于区间的策略,如iPLS、反向iPLS(biPLS)、协同区间PLS(siPLS)和移动窗口PLS(MWPLS),已成功将光谱分析从离散点转变为连续区域[20]、[21]、[22]、[23]。然而,现有研究表明,这些方法往往依赖于刚性的区间划分或线性评估指标,可能难以隔离区域内的噪声或表示分子振动中的复杂非线性相互作用。为了解决这些问题,我们提出了CRUISE-NIR算法。与传统区间方法不同,CRUISE-NIR通过结合多尺度相关性和化学先验知识来区分特征,确保识别的区域不仅在统计上稳定,而且具有与特定分子结构相关的明确物理解释性。然而,NIR光谱的物理特性决定了分子振动特征通常表现为连续波长区域内的协同响应模式,例如烯烃分子中的C=C和C-H键在5900-6100 cm-1和6060-6200 cm-1等特定区域形成的特征吸收带[24]。其次,现有模型通常采用“一刀切”的建模策略,未能充分考虑不同样本在不同光谱区域的表现差异,难以解决样本异质性问题[25]。第三,关于特征选择算法与预测模型之间协同优化的工作不足,每个环节的独立优化限制了整体性能的提升[26]。此外,大多数研究过度依赖单一算法范式,缺乏多算法协同框架和针对区域特征的自适应响应机制,而对模型预测结果可解释性的研究不足,使得难以清晰解释某些波长区域对目标属性的具体贡献[27]、[28]。这些限制共同构成了本研究的重要突破点,也是构建更准确和可解释的NIR光谱分析模型的关键挑战[29]。
基于对NIR光谱物理特性的深入理解,本研究采用了一个四步建模框架:异常样本消除、光谱预处理、特征波长选择和预测模型构建。前两步采用传统的残差分析和常规光谱预处理技术,后两步则实现了重要的技术创新。在特征波长选择方面,我们提出了CRUISE-NIR算法,该算法充分考虑了NIR光谱中相邻波长的物理相关性,能够识别与烯烃相关的连续波长区域,从而保留了更完整的分子振动特征信息。在预测模型构建阶段,我们设计了RAEL框架,该框架根据不同光谱区域的异质信息特征构建区域特定的子模型,并通过自适应加权机制将它们集成在一起,有效提高了模型的泛化能力和预测稳定性。实验结果表明,所提出的方法显著提升了汽油烯烃含量的预测准确性。此外,通过固体农业样本的案例研究进一步证明了该框架的方法论通用性,证明了其作为不同物理状态下复杂NIR光谱分析通用解决方案的潜力。
章节片段
理论与算法
本章介绍了用于汽油烯烃含量分析的NIR光谱建模方法,包括传统的分析工作流程以及本研究提出的两项核心创新:CRUISE-NIR算法和RAEL框架。
汽油数据集和实验仪器
实验使用了EXPEC1360B近红外分析仪,测量了186个汽油样本的光谱数据,波长范围为5558-10000 cm-1,分辨率为1 cm-1,每个样本扫描10次并取平均值。同时,使用荧光指示剂吸附(FIA)方法确定了这些汽油样本中的烯烃含量。图1显示了186个汽油样本的原始光谱,在5800左右的波长处可以观察到显著的吸收峰。
传统方法的性能评估
通过对650种不同建模组合的系统评估,本研究确定了Baseline Correction-UVE-Weighted Ensemble组合作为汽油烯烃含量预测的最佳传统方案。如图2所示,不同的预处理方法和特征选择算法组合在效果上存在显著差异,其中Baseline Correction-UVE组合与各种预测模型结合时表现尤为出色。
结论
本研究系统地解决了NIR光谱在复杂分子分析中的两个基本挑战:波长特征的高维共线性和光谱区域信息的异质性。将CRUISE-NIR算法与区域敏感自适应集成学习(RAEL)框架相结合的集成方法,在预测性能和可解释性方面取得了显著改进。
在汽油数据集上的实验结果证明了
CRediT作者贡献声明
徐邦联:撰写——审稿与编辑、验证、监督、项目管理、方法论、正式分析、概念化。张大为:监督、资源管理、项目管理。曹向龙:可视化、调查。范建中:数据整理。崔家学:撰写——初稿、方法论、调查、正式分析、数据整理、概念化
相关内容
如需获取与本研究相关的所有代码,可联系相应作者。
资金来源
本研究得到了上海工业协同创新项目(HCXBCY-2022-006)的支持。
利益冲突声明
? 作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号