基于振动光谱与决策树算法的食品二元鉴别研究:决策树、随机森林与XGBoost的性能比较

【字体: 时间:2025年05月26日 来源:Food Chemistry 8.5

编辑推荐:

  本研究针对食品复杂基质中光谱分析的技术瓶颈,系统评估了决策树(DT)、随机森林(RF)和XGBoost算法在近红外(NIR)与拉曼光谱数据中的分类性能。研究团队通过优化特征重要性评估策略,实现了对含麸质/无麸质面包(NIR)及纯/掺蔗糖椰子水(Raman)的高精度鉴别(准确率高达99%),并揭示了O-H、C-H、N-H和C-O-C等关键化学键的鉴别贡献。该成果为食品质量控制提供了更高效、可解释的机器学习解决方案,发表于《Food Chemistry》。

  

食品质量安全一直是公众关注的焦点,但传统分析方法常面临样本基质复杂、光谱重叠等技术挑战。以面包和椰子水为例,麸质蛋白的精准检测和糖类掺假鉴别不仅关乎特殊人群健康,更是食品行业监管的难点。近红外(NIR)和拉曼光谱虽能提供分子指纹信息,却受限于水分子干扰(NIR)或荧光效应(Raman),加之光谱数据的高维度特性,使得传统化学计量学方法如偏最小二乘判别分析(PLS-DA)难以兼顾精度与可解释性。

针对这一难题,来自圣保罗研究基金会支持的研究团队在《Food Chemistry》发表了一项创新研究。他们系统比较了三种决策树算法——决策树(DT)、随机森林(RF)和XGBoost——在食品二元鉴别中的性能差异。通过优化算法参数并创新性提出基于杂质减少的特征重要性评估策略,研究不仅实现了近乎完美的分类准确率,更首次明确了水分子O-H键、蛋白质特征峰(C-H/N-H)以及糖苷键C-O-C在鉴别中的核心作用。

关键技术方法包括:1)采用Kennard-Stone算法和随机分割构建训练/测试集(70%/30%);2)使用标准正态变量变换(SNV)预处理NIR光谱以消除散射效应;3)通过贝叶斯优化(BayesSearchCV)进行超参数调优;4)结合主成分分析(PCA)和线性判别分析(LDA)作为基线模型对比。

研究结果
Exploratory analyses by PCA
PCA分析显示经SNV处理后的NIR光谱能有效分离含麸质与无麸质面包样本,主要差异源于1400-1600 nm区间的水分子O-H键及蛋白质特征峰。

Conclusions
随机森林(RF)以100%的最高准确率显著优于其他算法,其优势在于:1)通过多树集成降低过拟合风险;2)特征重要性评估与化学键指认高度吻合;3)对噪声和共线性数据具有更强鲁棒性。相较之下,XGBoost虽计算效率高,但模型可解释性较差;而传统PLS-DA在复杂光谱分类中表现欠佳。

这项研究的突破性在于将机器学习算法开发与化学计量学深度结合:一方面,提出的杂质减少策略为光谱特征重要性提供了更可靠的化学解释;另一方面,明确推荐RF作为食品光谱鉴别的首选算法,尤其适用于含水基质样本。该成果不仅为食品行业质量控制提供了标准化分析框架,其方法论还可拓展至药品、环境监测等多元复杂体系的光谱分析领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号