
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释机器学习的烟草叶片位置判别模型构建与化学特征解析
【字体: 大 中 小 】 时间:2025年07月26日 来源:Frontiers in Plant Science 4.8
编辑推荐:
本研究创新性地将机器学习与可解释性技术相结合,基于近红外快速分析技术获取的70种烟草化学成分,构建了支持向量机(SVM)、反向传播神经网络(BPNN)和随机森林(RF)叶片位置判别模型,并通过粒子群优化(PSO)算法优化参数。其中SVM-混合核模型表现最优(训练集准确率98.17%,测试集96.33%),利用SHapley加性解释(SHAP)算法揭示了烟碱、新植二烯等关键成分的贡献规律,为作物位置溯源和化学特征分析提供了新范式。
烟草作为重要经济作物,其叶片位置(上部B/中部C/下部X)与品质密切相关。传统近红外光谱结合算法模型虽能识别叶位,但依赖降维后的主成分导致可解释性差;而基于仪器分析的化学成分检测又存在耗时耗力、化合物覆盖有限的缺陷。本研究提出融合机器学习与可解释性技术的新策略,通过近红外快速分析技术获取70种化学成分,构建高精度可解释的叶位判别模型。
样本制备:收集中国17省546份烟叶样本,按位置分为上中下三组,经40℃干燥、60目筛分处理,采用Antaris? II傅里叶变换近红外光谱仪(4000-10000 cm-1)采集数据,经多元散射校正(MSC)和一阶导数预处理后,通过已建立的近红外-化学成分预测模型推导出70种成分,包括常规成分、多酚、氨基酸等,并衍生糖碱比、氮碱比等9项指标。
模型构建:采用分层抽样将数据分为训练集(80%)和测试集(20%),通过五折交叉验证优化支持向量机(SVM)、反向传播神经网络(BPNN)和随机森林(RF)参数。粒子群优化(PSO)算法以交叉验证准确率为适应度函数,关键参数包括:SVM核函数(线性/多项式/高斯/混合)、BPNN隐藏层数(1-3层)和RF树数量(50-200)。模型性能通过准确率(Acc)、召回率(R)、F1值等指标评估。
可解释性分析:采用SHAP算法解析最优模型,通过特征重要性排序、SHAP摘要图和依赖图揭示化学成分贡献。同时通过独立样本t检验(显著性水平0.0167)验证不同叶位化学成分差异。
模型性能:SVM-混合核模型表现最优,训练集和测试集准确率分别达98.17%和96.33%,宏平均F1值0.9444。混淆矩阵显示仅4个样本误判,如C1F等级烟叶因接近上部叶特征被误判。BPNN和RF模型准确率分别为94.5%和93.6%,证实SVM更适合小样本数据。
化学特征差异:t检验发现上部叶与其他位置在62项指标上存在显著差异,如上部叶新植二烯含量(25.43±6.21 μg/g)显著高于中部叶(18.79±5.34 μg/g);中部叶的果糖-酪氨酸(Fru-Tyr)含量(1.02±0.31 mg/g)特异性高;下部叶的镁含量(0.42±0.09%)和糖碱比(12.7±3.5)显著突出。
SHAP解析:
研究首次系统揭示了烟草叶位判别的化学基础:上部叶以高总氮(2.85±0.43%)、芦丁(1.42±0.38 mg/g)为特征;中部叶以适中的生物碱(3.12±0.51%)和特异Amadori化合物为标志;下部叶则依赖高镁(0.42±0.09%)和糖碱比(12.7±3.5)。与传统认知一致的是,SHAP依赖图证实总生物碱呈"上部叶>中部叶>下部叶"梯度,而钾离子呈现相反趋势。研究还发现独立t检验未显着的淀粉和多酚在SHAP分析中贡献显著,表明机器学习能捕捉特征间非线性相互作用。
该研究建立的SVM-混合核模型实现了烟草叶位的精准判别,SHAP算法首次量化了70种化学成分的贡献度,揭示了新植二烯、糖碱比等关键指标的判别机制。该方法突破了传统近红外模型解释性差的局限,为农产品质量溯源提供了可解释AI范本,未来可扩展至其他作物的品质分析与分级应用。
生物通微信公众号
知名企业招聘