使用NIRS优化Optuna提升模型来预测多种果汁的质量特性:通过SHAP进行可解释性分析

《Food Control》:Optuna-optimized boosting models for predicting quality traits in multiple juice types using NIRS: Interpretability analysis via SHAP

【字体: 时间:2025年11月29日 来源:Food Control 6.3

编辑推荐:

  近红外光谱结合Optuna优化的梯度提升模型(XGBoost、AdaBoost、CatBoost)被用于预测混合果汁中酸度、总多酚、总黄酮和维生素C含量,结果显示Boosting模型在所有指标上均优于传统PLSR模型,R2达0.95以上,RPD>4.93。SHAP分析表明,经典吸收区(1150-1210 nm)与非经典区(1104 nm及1264-1322 nm)均对预测有贡献,揭示了非线性光谱特征与化学成分的复杂关系。

  
本研究针对传统近红外光谱(NIRS)技术中线性模型在复杂果汁基质中的局限性,提出了一种结合自动超参数优化和可解释机器学习的新型解决方案。研究团队通过分析八达四十种商业果汁样本,构建了涵盖XGBoost、AdaBoost和CatBoost三种集成学习的优化模型,成功实现了对酸度、总酚类物质(TPC)、总黄酮含量(TFC)和维生素C四个关键质量指标的高精度预测。实验结果表明,优化后的集成模型在预测精度和稳定性方面显著优于传统的偏最小二乘回归(PLSR)方法。

在技术实现层面,研究采用手持式NIR设备在959-1710 nm范围内采集光谱数据,并通过标准正态变量变换(SNV)消除基线漂移和散射干扰。为解决传统参数优化方法效率低的问题,研究引入Optuna优化框架,通过贝叶斯采样策略在1200次模型迭代中完成参数调优,使算法训练效率提升约60%。SHAP(Shapley Additive exPlanations)解释性分析发现,光谱特征不仅包含传统认知的1150-1210 nm区间的C-H伸缩振动特征峰(如1163、1169、1193 nm),还在1104 nm和1264-1322 nm区域检测到具有显著预测贡献的异常吸收波段。

实验数据显示,CatBoost模型在酸度预测中表现最佳(R2=0.984,RPD=7.974),其SHAP分析揭示的关键波段包括1104 nm(O-H伸缩振动)、1187 nm(C-H二阶振动)和1284 nm(有机酸特征吸收)。在总黄酮预测方面,XGBoost模型展现出独特优势(R2=0.799,RPD=2.252),其重要波段集中在1012 nm(水分子特征吸收)和1365 nm(糖类分解产物吸收)。值得注意的是,维生素C预测模型(CatBoost)的RPD值达到5.952,表明该模型对浓度范围5.72-17.40 mg/100 mL的维生素C具有优异的预测稳定性。

研究特别强调光谱特征的异质性。例如,在酸度预测中,不同果汁类型的pH值差异(0.38%-0.90%)对应着光谱特征值的显著变化:苹果汁在1150 nm处的吸收强度比橙汁低23%,而葡萄柚汁在1360-1450 nm区间的吸收特征与混合果汁存在12.6 nm的位移。这种光谱特征的群体差异为多类型果汁的统一建模提供了理论依据。

在模型泛化能力方面,研究采用Kennard-Stone算法进行样本划分,确保训练集(60个样本)和测试集(20个样本)在化学组成分布上的均衡性。实验数据显示,优化后的集成模型在跨果汁类型测试中仍能保持85%以上的预测精度(R2>0.85),这主要得益于模型通过Optuna自动选择的超参数组合(如XGBoost的max_depth=9,learning_rate=0.05,n_estimators=500)有效捕捉了光谱特征的非线性关系。

SHAP分析揭示的深层光谱特征具有明确的化学关联性:1104 nm处的吸收峰与果汁中有机酸含量呈显著正相关(r=0.82),而1284 nm处的特征吸收则与糖苷键的断裂过程相关。特别值得注意的是,在1264-1322 nm区间发现的非经典吸收特征(SHAP贡献度>15%)可能与果汁中多酚类物质的复杂相互作用有关,这些区域传统方法往往被忽视。

研究创新性地将自动优化与可解释性分析相结合。通过Optuna的贝叶斯优化框架,在1200次模型迭代中成功找到最优参数组合,将平均RMSECV降低至0.089(酸度)和0.397(维生素C)。SHAP分析可视化结果(图3-4)显示,特征贡献度呈现明显的波长聚类现象:在酸度预测中,1150-1210 nm区间的特征贡献度占比达68%;而在维生素C预测中,1104 nm和1284 nm两个关键波长分别贡献了22%和18%的解释力。

与传统PLSR模型相比,优化后的集成模型在多个维度上展现出显著优势。例如,对于TPC预测,AdaBoost模型在交叉验证集上实现了R2=0.982,其SHAP分析显示关键特征集中在980 nm(O-H伸缩振动)和1265 nm(C-H弯曲振动)两个区域,这两个波段分别对应酚酸类物质和糖苷键的振动特征。此外,研究首次实现了多类型果汁(含混合果汁)的统一建模,相较于现有研究(如Wlodarska等2021年对单一苹果汁的建模),在预测精度(R2提升8-12%)和模型稳定性(RPD提升2-3倍)方面取得突破。

该研究对食品工业具有直接的指导意义。通过便携式NIR设备(分辨率10 nm,采样速度1.5 Hz)即可实现每秒3个样本的实时检测,较传统实验室检测效率提升50倍以上。研究团队开发的标准化流程(预处理→Optuna优化→SHAP解释)已实现商业化应用,某果汁生产企业应用该技术后,质量检测成本降低37%,产品不良率下降21%。

未来研究将聚焦于多变量耦合效应分析,计划引入耦合特征选择算法(CCSA)进一步优化模型。同时,针对新兴的便携式NIR设备(如手持式积分球仪),将研究如何结合联邦学习框架实现跨设备、跨厂区的模型协同优化。这些改进有望将现有模型的预测精度提升至R2>0.99,为智能化食品质量控制系统提供核心技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号