
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于建模能力(SIMCA)的变量选择算法在食品真实性检测中的一类分类应用研究
【字体: 大 中 小 】 时间:2025年08月28日 来源:Analytica Chimica Acta 6
编辑推荐:
为解决高维数据中变量选择对一类分类(OCC)模型性能的影响问题,Mateus Pires Schneider团队开发了基于建模能力(MP)的变量选择算法MPS-SIMCA。该研究通过UV-Vis、NIR和HPLC-CAD三种分析技术验证了算法在食用油、茶叶和橄榄油真实性鉴别中的有效性,结果表明该方法在保持分类性能的同时显著提升模型可解释性,为食品认证领域提供了无需非目标样本的自动化变量选择方案。
在食品真实性检测领域,高维分析数据(如光谱和色谱)的变量选择一直是个棘手难题。传统方法依赖不同类别样本的对比信息,但在实际检测中,往往只能获取目标产品的可靠数据(如正品橄榄油),而假冒产品的样本难以系统收集。这种"只有一类样本"的特殊场景,使得常规变量筛选技术束手无策。更麻烦的是,现有SIMCA(软独立建模分类类比)方法使用全谱数据建模时,常会引入噪声变量,导致模型臃肿且难以解释。面对这一挑战,来自巴西联邦大学和意大利热那亚大学的研究团队另辟蹊径,开发出完全基于目标类内部结构的变量选择新算法。
这项发表在《Analytica Chimica Acta》的研究,创新性地利用建模能力(Modeling Power, MP)这一SIMCA内置指标作为筛选核心。研究人员设计了三重过滤标准:MP与类紧密度相关性、MP跨主成分非增长率以及最小MP阈值。为验证方法普适性,团队精心选择了三个典型数据集:Pontes提供的食用油UV-Vis光谱(220-400nm)、Diniz研究的阿根廷绿茶NIR光谱(1001-2500nm),以及丹麦哥本哈根大学公开的橄榄油HPLC-CAD色谱数据。所有分析均采用Kennard-Stone算法划分训练/测试集,并通过Procrustes交叉验证生成验证集。
2.1. Modeling Power Calculation
研究发现MP能有效量化变量对类模型的贡献度。通过比较变量在PCA空间的残差标准差与原始标准差(公式1),MP值越接近1表示该变量对类结构表征越重要。在食用油UV-Vis数据中,PC1阶段MP值在200-250nm区域显著偏高,这与共轭双键的π→π*跃迁区域高度吻合。
2.2. Principal Component Selection Strategies
团队提出两种创新性PC选择标准:基于MP变异系数(CV)指数衰减的"指数拟合准则"(公式2)和接近整体均值的"CV-均值准则"(公式3)。在茶叶NIR数据中,前者建议保留PC1,后者推荐PC3,最终折中选择PC2以平衡过拟合风险。
2.3. Variable Filtering Criteria
三重过滤机制展现出强大筛选能力:
紧凑性贡献:通过Spearman相关分析(公式5)锁定与类紧密度强相关的变量,在橄榄油数据中筛选出2.6%的关键色谱区域(15-17分钟),对应特征性甘油三酯如OOO(三油精)的洗脱区间。
MP非增长率:公式8计算的增长阈值有效排除了后期PC才显现的干扰变量,在食用油数据中排除了249-296nm的潜在噪声区。
最小MP阈值:沿用Wold建议的0.3临界值(公式1),茶叶数据中该标准保留了80.4%的变量,主要集中在儿茶素特征吸收区(1000-1100nm)。
4.3. SIMCA Acceptance Regions
测试集验证显示,精简后的模型性能不降反升:食用油数据达到100%灵敏度(10/10)和100%特异性(15/15);茶叶数据将误判数从4例降至3例;橄榄油数据更是实现全样本正确分类。统计检验(Fisher精确检验和McNemar检验)证实改进具有统计学意义。
这项研究的突破性在于首次系统地将MP指标转化为可操作的变量选择框架。相比Pomerantsev的LOVE算法,MPS-SIMCA实现了全自动化运行,且无需人工干预。方法学优势体现在三方面:一是完全依赖目标类内在结构,符合实际检测场景;二是通过MP动态变化捕捉变量本质贡献,避免静态阈值局限;三是与化学解释高度一致,如筛选出的220-234nm正好对应食用油氧化标志物区域。
正如通讯作者Adriano de Araújo Gomes强调的,该方法特别适合"样本有限但变量爆炸"的食品认证场景。未来通过整合多路数据(如激发-发射矩阵)处理能力,有望拓展至荧光光谱等更高维分析领域。这项研究为分析化学界提供了一把"去芜存菁"的智能筛子,让一类分类模型既保持"火眼金睛"的辨别力,又具备"明察秋毫"的解释性。
生物通微信公众号
知名企业招聘