基于顶空气相色谱-离子迁移谱与机器学习的果汁掺假智能检测研究

《Journal of the Science of Food and Agriculture》:Smart detection of juice adulteration: An approach based on ion mobility spectrometry and machine learning

【字体: 时间:2026年06月09日 来源:Journal of the Science of Food and Agriculture 3.5

编辑推荐:

  背景:果汁品质受欧盟法规监管,但添加廉价替代品(如白葡萄汁)进行掺假仍是普遍问题,构成经济欺诈并对消费者健康造成潜在风险。本研究旨在建立一种自动化数据处理及定量橙汁、菠萝汁和苹果汁中白葡萄汁掺假水平的方法。结果:研究人员将顶空-气相色谱-离子迁移谱(HS?GC

  
背景:果汁品质受欧盟法规监管,但添加廉价替代品(如白葡萄汁)进行掺假仍是普遍问题,构成经济欺诈并对消费者健康造成潜在风险。本研究旨在建立一种自动化数据处理及定量橙汁、菠萝汁和苹果汁中白葡萄汁掺假水平的方法。结果:研究人员将顶空-气相色谱-离子迁移谱(HS?GC?IMS)与机器学习算法相结合,训练了支持向量回归(SVR)、偏最小二乘(PLS)回归及随机森林(RF)回归模型,并应用Boruta算法进行变量筛选以提高模型性能。其中SVR模型表现最佳,测试集均方根误差(RMSE)为1.831,决定系数(R2)为0.987。此外研究人员开发了交互式网络应用程序以便于数据处理与方法推广。结论:结果表明HS?GC?IMS结合机器学习算法可高精度、可靠地定量果汁中掺杂物含量。该非靶向工作流程较传统方法更有效,可防范欺诈并保障消费者安全,配套网络应用提升了易用性,便于在分析实验室中广泛采用。? 2026 The Author(s).《Journal of the Science of Food and Agriculture》由John Wiley & Sons Ltd代表Society of Chemical Industry出版。
论文解读:基于HS?GC?IMS与机器学习的果汁掺假智能检测方法研究
果汁是消费量最大的饮品之一,欧盟2023年100%纯果汁及果味饮料产量约68亿升,市场价值达192亿欧元。尽管受2012/12/EU指令监管,果汁仍是最易被掺假的食品之一,常见手段为加水、加糖,近年趋势是用廉价果汁(如白葡萄汁)替代高价果汁(橙汁、苹果汁、菠萝汁),此类果汁对果汁(juice?to?juice)掺假更难通过靶向化合物检测发现,且可能引发未知过敏反应。传统液质或气质联用(LC/GC?MS)虽有效但耗时、需溶剂、样品前处理复杂且依赖熟练分析师。全局指纹(非靶向)技术与机器学习(Machine Learning, ML)结合可避开单体标志物鉴定,直接从挥发性全谱预测真实性,适合常规质控。顶空?气相色谱?离子迁移谱(Headspace?Gas Chromatography?Ion Mobility Spectrometry, HS?GC?IMS)可获得离子迁移加和谱(Ion Mobility Sum Spectrum, IMSS),具ppb级检出限、快速、低成本、便携,适合现场筛查,但在果汁掺假定量中应用尚少。因此研究人员开展本研究,以HS?GC?IMS的IMSS结合ML回归模型,验证全局挥发性谱用于自动定量不同果汁中白葡萄汁掺假水平的可行性。该研究发表于《Journal of the Science of Food and Agriculture》。
主要关键技术方法:
研究人员采集市售橙汁(Orange)、苹果汁(Apple)和菠萝汁(Pineapple)各两种品牌/批次混合制备基液,以白葡萄汁(White Grape Juice)为掺假物按0%、5%、10%、15%、20%、30%、40%、50%(w/w)掺入,每种制备双份平行,共96个样本(3种果汁×2样本×8掺假水平×2重复)。样本经HS?GC?IMS(FlavourSpec?,MCC OV?5柱,N2载气/漂移气,顶空进样750 μL,孵育46.3 ℃/5 min)采集IMSS,截取RIP相对漂移时间1.020–1.900共881个变量构建96×881数据矩阵,按75%训练/25%测试分层划分(同一样本两重复同组)。数据经一阶导数+Savitzky?Golay平滑(窗口11点,三次多项式)预处理降维至871变量。采用Boruta算法做变量筛选,筛选出31个确认(Confirmed)相关漂移时间变量。分别以全矩阵和筛选后降维矩阵输入三种回归模型——偏最小二乘(Partial Least Squares, PLS)回归、支持向量回归(Support Vector Regression, SVR,高斯核)和随机森林(Random Forest, RF)回归——超参数用留一法交叉验证(Leave?One?Out Cross?Validation, LOOCV)优化,以RMSE、R2、RPD(Ratio of Performance to Deviation)和RER(Range Error Ratio)评价。基于最优SVR模型用R Shiny开发交互式网页应用。
研究结果
Exploratory analysis(探索性分析):
研究人员对预处理后IMSS(D96×871)做层次聚类分析(Hierarchical Cluster Analysis, HCA,Manhattan距离,平均联接法),结果显示样本首要按果汁原料(橙、苹果、菠萝)聚类,表明不同果汁挥发性有机物(Volatile Organic Compounds, VOCs)组成差异远大于掺假水平影响;部分亚簇内可见按掺假百分比及样本编号(1或2)微弱分组趋势,但无监督方法无法准确区分掺假水平,需借助有监督回归。
Regression models(回归模型):
  • Partial least squares (PLS) regression(偏最小二乘回归):全矩阵最优潜变量数16,训练集RMSE=3.479、R2=0.955,测试集RMSE=9.537、R2=0.695,明显过拟合;Boruta筛选后降维矩阵(13个潜变量)测试集RMSE=8.431、R2=0.711,过拟合减轻但未达定量要求。
  • Support vector regression (SVR)(支持向量回归):全矩阵最优C=42.25、γ=9.765×10?4,测试集RMSE=7.192、R2=0.808;降维矩阵最优C=11.31、γ=0.0883,训练集RMSE=1.374、R2=0.996,测试集RMSE=1.831、R2=0.987,无过拟合迹象,为所有模型中最佳。
  • Random Forest (RF) regression(随机森林回归):全矩阵mtry=356,测试集RMSE=9.683、R2=0.716;降维矩阵mtry=3,测试集RMSE=6.003、R2=0.813,性能介于PLS与SVR之间。
Models' comparison(模型比较):
Boruta变量筛选后模型测试集性能均优于全矩阵,说明IMSS中大量变量为噪声。三种模型中SVR>RF>PLS,提示数据具非线性特征,高斯核SVR最能捕捉普适模式。仅SVR(降维矩阵)满足定量优秀标准:测试集RPD=8.63(>3)、RER=27.31(>9),检出限(Limit of Detection, LOD)=3.92%。研究人员据此开发并发布Shiny网页应用供用户上传IMSS数据自动完成变量筛选与SVR掺假定量。
讨论与结论翻译总结:
研究人员结论为:离子迁移加和谱(IMSS)联合机器学习模型可用于果汁中掺假物的定量。层次聚类分析显示样本主要按原料聚类,次要按掺假百分比分组。定量分析中,经Boruta算法变量筛选后以支持向量回归(SVR)建模效果最优——测试集RMSE为1.831、决定系数(R2)为0.987。该模型已通过交互式网站向所有用户开放。本研究证明HS?GC?IMS结合ML可实现果汁?对?果汁掺假自动、快速、客观定量,成本低、样品前处理少、通量高,可应用于常规实验室及工业质控,有助于消费者安全保障与法规合规,未来应拓展掺假物种类与果汁类型并以更大样本细化低掺假范围检测能力。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号