利用高光谱成像和基于WGAN数据增强技术的XGBoost-SHAP算法,显著提升了菊花中总黄酮含量的预测精度

《Industrial Crops and Products》:Enhanced prediction of total flavonoid in chrysanthemum using hyperspectral imaging and XGBoost-SHAP powered by WGAN data augmentation

【字体: 时间:2025年11月06日 来源:Industrial Crops and Products 6.2

编辑推荐:

  高光谱成像结合Wasserstein生成对抗网络(WGAN)进行数据增强,再通过XGBoost-SHAP模型实现菊花中黄酮类化合物的高精度预测,验证了小样本条件下数据增强与可解释机器学习结合的有效性。

  该研究聚焦于如何利用先进的数据分析技术对菊花中总黄酮含量进行快速、准确的预测。菊花作为中国传统医学中广泛应用的药材,其丰富的黄酮类化合物赋予了它多种潜在的健康益处,包括抗炎、抗氧化和抗过敏等。黄酮类化合物不仅在药理学中扮演着重要角色,同时也是评估菊花质量的重要指标之一。然而,传统的黄酮含量测定方法通常依赖于复杂的化学实验流程,且需要昂贵的设备和大量化学试剂,这不仅增加了成本,还可能对环境造成负担。因此,寻找一种快速、绿色且非破坏性的分析方法成为当前研究的热点。

为了克服小样本数据对模型泛化能力的限制,研究团队引入了一种基于生成对抗网络(GAN)的数据增强策略。这种方法通过生成合成数据来扩充原始数据集,从而提高模型的鲁棒性和预测能力。其中,Wasserstein GAN(WGAN)因其在生成数据时能够更稳定地捕捉真实数据的分布特征,表现出优于传统GAN和深度卷积GAN(DCGAN)的性能。通过多维度的评估指标,研究者验证了WGAN在数据增强方面的有效性,生成的数据在质量和一致性方面均优于其他方法。

研究中采用了高光谱成像技术(HSI)来获取菊花样本的光谱信息。HSI结合了近红外光谱技术和计算机视觉的优势,不仅能够提供高分辨率的图像信息,还能对每个像素点进行光谱分析,从而获得多维数据。这种技术特别适用于复杂样品的分析,有助于提升预测模型的准确性和全面性。此外,HSI已被成功应用于食品质量和安全评估,尤其在菊花的质量追溯和定量成分分析方面取得了显著进展。

为了进一步提升模型的预测性能,研究者将HSI数据与可解释性机器学习相结合。他们选择了XGBoost作为主要的预测模型,并引入了SHAP(Shapley Additive Explanations)工具来增强模型的可解释性。SHAP能够揭示每个特征(如特定波长)对模型预测结果的贡献,从而提高模型的透明度和可解释性。这种结合使得模型不仅能够实现高精度的预测,还能为后续的模型优化和简化提供指导。

在实验设计方面,研究者从中国不同地区收集了200个菊花样本,并将其分为训练集和测试集,比例为1:1。为了验证模型的有效性,研究团队还使用WGAN生成了200个合成样本,从而将训练集扩充至300个样本。随后,他们对多个预测模型进行了评估,包括偏最小二乘回归(PLSR)、支持向量回归(SVR)和XGBoost。结果显示,XGBoost在使用增强数据后表现出最佳的预测性能,其测试集上的R2值为0.8714,预测偏差比(RPD)达到3.26,显著优于仅使用真实数据训练的模型。

此外,研究者还对生成的光谱数据和化学数据进行了详细的相似性分析。他们使用t-SNE(t-distributed stochastic neighbor embedding)将数据降维并可视化,以观察生成数据与真实数据之间的分布差异。同时,他们还计算了最大均值差异(MMD)、切片Wasserstein距离(SWD)和百分比均方根偏差(PRD)等指标,进一步验证了WGAN生成数据的高质量。结果显示,WGAN在这些指标上均优于其他方法,表明其在生成数据时能够更准确地模拟真实数据的分布特征。

研究中还对模型的可解释性进行了深入探讨。通过SHAP分析,研究者识别了对模型预测结果影响最大的20个波长,并展示了这些波长在模型中的具体作用。结果表明,某些波长的高反射率与较高的黄酮含量存在显著相关性,而其他波长则可能对预测结果产生负面影响。这种分析不仅增强了模型的可解释性,还为未来的研究提供了新的思路,即通过理解特定波长与化学成分之间的关系,进一步优化模型的设计和应用。

该研究的意义在于,它提供了一种在数据有限的情况下进行农业产品成分预测的新策略。通过结合HSI和WGAN的数据增强方法,研究者成功构建了一个既准确又可解释的预测模型,为实现农业产品的绿色、低碳和可持续发展提供了技术支持。同时,这一方法也为其他植物成分的定量分析提供了参考,有助于推动非破坏性检测技术在农业和食品领域的广泛应用。

研究团队在实验过程中还强调了模型泛化能力的重要性。由于菊花的种植区域和品种可能会发生变化,因此模型需要具备较强的适应性和泛化能力。尽管当前研究结果表明该方法在特定数据集上表现优异,但为了确保其在不同环境下的适用性,研究者建议未来可以探索基于迁移学习的微调策略,以提升模型对非目标数据的预测能力。此外,研究者还指出,由于生成数据的质量和多样性对模型性能具有重要影响,因此在实际应用中,需要对生成数据进行严格的筛选和验证,以确保其与真实数据的匹配度。

总体而言,该研究展示了如何利用高光谱成像和机器学习技术对菊花中黄酮含量进行高效预测。通过引入WGAN进行数据增强,研究团队成功克服了小样本数据对模型性能的限制,构建了一个具有高准确度和强可解释性的预测模型。这一成果不仅为菊花的质量控制提供了新的方法,也为其他农产品的成分分析提供了可借鉴的思路。未来的研究可以进一步探索该方法在不同作物和环境条件下的适用性,以实现更广泛的应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号