间隔保留优化(Interval Retention Optimization, IRO):一种用于扩展光谱数据集的高效特征选择方法

《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:Interval retention optimization (IRO): An efficient feature selection method for expanding spectral datasets

【字体: 时间:2026年01月08日 来源:Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3

编辑推荐:

  高效近红外光谱特征选择方法研究:提出iro框架通过贝叶斯优化与夏普利值实现低维连续优化,解决传统方法效率与泛化性矛盾,在三个公开数据集上验证其显著提升预测精度和计算效率

  
程一帆|张梦生|牛晨|哈塞·萨塔尔|郭连波
华中科技大学光电子信息学院,武汉430074,中国

摘要

对于大规模近红外(NIR)光谱分析而言,有效的特征选择至关重要。然而,现有算法在准确性和效率之间存在权衡。这种权衡源于搜索策略:顺序方法虽然高效,但往往缺乏泛化能力;而全局方法虽然能够捕捉特征之间的相互作用,但由于需要反复重新训练而带来较高的计算成本。为了解决这些限制,我们提出了区间保留优化(Interval Retention Optimization,简称IRO)框架,该框架将特征选择问题重新定义为在波长区间内连续分配保留率。在全局重要性度量的指导下,并通过贝叶斯搜索进行优化,IRO利用基于掩码的扰动策略直接在预训练模型上评估候选子集,从而避免了重新训练,显著提高了效率。实验结果表明,IRO能够提高预测准确性和计算效率,RMSEP最多可降低9.10%,RMSECV和R2分别最多提高5.51%和15.20%,计算速度最多加快87.54%。这些结果凸显了IRO作为复杂NIR应用中光谱特征选择的可行且实用的解决方案。

引言

光谱技术能够实现非破坏性、快速且同时的多组分分析,无需样品预处理[1],并已广泛应用于农业及相关领域[[2], [3], [4], [5], [6]]。
在此背景下,将化学计量模型应用于复杂的农业和化学矩阵方面取得了显著进展。近年来发表的几项基准研究为预测准确性树立了新标准。结合机器学习的先进光谱建模在多种应用中表现出色,包括芒果品质检测[7]和土壤性质预测[8]。这些方法在食品安全等具有挑战性的任务中也表现出高效性,例如量化牛奶掺假[9,10]、检测蜂蜜中的添加糖[11]以及评估可可豆质量[12]。总体而言,这些前沿研究表明,当专门的数据集、优化的预处理和定制的建模策略结合使用时,可以实现高精度。然而,随着现代仪器越来越多地产生高维光谱数据,选择有信息量的特征的计算成本——尤其是在深度学习框架中——已成为一个关键瓶颈。这一挑战凸显了需要更高效和稳健的特征选择策略。特征选择作为关键的预处理任务,通过排除光谱数据中的冗余特征和噪声信号,防止了预测能力的损失[13]。因此,高效和稳定的特征选择对于开发可靠且稳健的光谱分析模型至关重要[14]。
近年来,光谱特征选择已成为光谱学研究中的一个关键领域,推动了多种方法的发展,包括滤波方法[[15], [16], [17]]、包装方法[[18], [19], [20], [21], [22]]、嵌入式方法[[23], [24], [25], [26]]以及混合方法[[27], [28], [29], [30], [31]]。尽管进行了大量研究,但这些方法中的许多对从根本上控制特征选择的搜索策略关注有限。策略的选择决定了预测性能和计算效率之间的权衡,尤其是在高维光谱空间中。大致上,这些策略可以分为两种范式:顺序搜索和全局搜索[32]。顺序搜索方法,如竞争性自适应重加权采样(CARS)[19]和递归特征消除(RFE)[33],根据预定义的重要性指标迭代地添加或移除特征[34]。虽然计算效率高,但它们的主要局限在于严重依赖于模型特定的重要性得分,这些得分可能缺乏跨模型的泛化能力[35]。相比之下,全局搜索方法,如蒙特卡洛无信息变量消除(MC-UVE)[16]和遗传算法(GA)[22],依赖于启发式或优化驱动的探索,而不是基于重要性的精细调整[36]。这种范式本质上更具模型无关性且更加灵活,能够更全面地搜索特征空间并捕捉复杂的特征相互作用。然而,它们的计算成本随着特征维度的增加而呈指数级增长,使得它们在大规模光谱数据集上不切实际。
便携式NIR光谱仪、高通量采集平台和多源光谱数据库的普及极大地扩展了光谱数据集的分辨率和样本量[37],为建模技术带来了前所未有的挑战。非线性模型,特别是人工神经网络(ANN),由于能够从高维和共线输入中学习复杂的光谱-属性关系而变得突出[38]。然而,这些模型作为黑盒运行,缺乏透明的特征重要性评估机制,这使得传统特征选择的集成变得复杂。依赖模型特定特征重要性得分的顺序策略变得不可靠甚至不适用。同时,尽管全局搜索方法具有模型无关性,但需要反复重新训练,因此在大规模数据集上计算成本过高。这些限制凸显了迫切需要适用于现代光谱建模环境的可扩展、模型无关的特征选择框架。
为了解决基于ANN的建模框架中的这些挑战,我们引入了区间保留优化(IRO),这是一种专门为基于深度学习的光谱分析设计的新特征选择方法。IRO的主要思想是将离散的高维特征选择任务转化为一个可管理的、低维的连续优化问题,即在区间保留率上进行优化。该策略将光谱划分为相邻的区间,并使用Shapley值量化特征重要性[39]。最近的研究证明了Shapley值作为独立特征选择机制的优越性,特别是与其提供公平、模型无关和可解释的排名能力相比传统指标[40,41]。在此基础上,IRO独特地整合了Shapley值进行局部的区间内精细调整。IRO不是应用统一的選擇规则,而是在全局层面采用贝叶斯优化[42]来动态确定每个区间的最佳保留率。这种方法代表了从传统基于区间的方法(如iPLS[20])的范式转变,后者通常依赖于二进制的“硬”选择(保留或丢弃整个区间)。相反,IRO引入了连续的“软”优化,允许灵活的资源分配,使区间之间能够竞争以捕捉复杂的特征相互作用。为了提高效率,基于掩码的扰动策略在不重复重新训练的情况下评估候选特征子集。与传统的基于区间的方法(如iPLS[20])不同,后者通常进行二进制的“硬”选择(保留或丢弃整个区间)或依赖于顺序贪婪搜索,IRO引入了连续的“软”保留率优化。最后,为了解决效率瓶颈,采用了基于掩码的扰动策略来评估候选子集,而无需重复重新训练。通过这种协同框架,IRO确保无论特征位置如何都能识别出关键特征,从而得到简洁且稳健的子集。
我们在三个公开的光谱数据集上评估了IRO:芒果、土壤和三聚氰胺-甲醛。除了之前提到的代表性的顺序和全局搜索方法——CARS[19]、RFE(使用XGBoost作为基础估计器)[33]、MC-UVE[16]和GA[22]——我们还包括了ANOVA[17](作为一种典型的滤波方法,因其效率而受到重视),以及Boruta(使用随机森林作为基础估计器)[45],以确保涵盖多种特征选择范式的全面基准测试。为了确保方法比较的公平性和可解释性,所有特征选择算法都在相同的数据集、相同的预处理流程和相同的基线模型架构下进行评估。这种控制变量的设计使我们能够单独评估特征选择步骤本身的贡献。因此,本研究的结果不应被解释为与文献中报告的最先进准确性的比较,因为后者是在不同的仪器、测量协议和建模策略下获得的。相反,我们的目标是在标准化条件下量化特征选择方法的相对性能提升。模型性能使用交叉验证的均方根误差(RMSECV)、预测RMSE(RMSEP)和决定系数(R2)进行评估。

理论与方法

设X为光谱数据矩阵,维度为m×n,其中每一行代表一个样本,每一列代表一个光谱变量。因此,数据集包含m个样本和n个变量。
每个变量对应一个列向量,大小为m×1,表示感兴趣的测量属性。本文使用人工神经网络(ANN)作为建模方法。

芒果数据集

该数据集来自4675个芒果,涵盖六个不同的品种和112个果园,在四个不同的收获季节采集。使用便携式F750仪器进行了多次近红外测量,共获得了11,691个光谱。每个光谱包含281个波长点,波长间隔为3 nm,范围从309 nm到1149 nm。感兴趣的属性是干物质含量(DMC)值。为了模型开发,光谱数据根据收获时间进行了预处理。

结果与讨论

为了评估所提出算法的性能,使用了三个光谱数据集——芒果、土壤和三聚氰胺-甲醛。该算法的有效性通过与六种经典特征选择方法进行了对比:ANOVA、CARS、RFE、MC-UVE、GA和Boruta。具体来说,ANOVA作为滤波方法,根据F统计量对变量进行排名并选择前k个特征,k是调整的超参数;CARS、MC-UVE和GA基于...

结论与未来工作

本研究介绍了区间保留优化(IRO)算法,这是一种为大规模光谱分析设计的特征选择框架。传统的顺序策略虽然高效,但严重依赖于模型特定的重要性得分,而全局策略虽然提供了更广泛的搜索能力,但在高维环境中计算上不可行。IRO通过将特征选择问题重新定义为区间级别的保留率优化问题,解决了这些限制。

未引用的参考文献

[43], [44]

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了国家关键研发计划(编号:2022YFE0118700)和Hust跨学科研究计划(编号:5003261055)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号