《Foods》:Precise Discrimination Between Rape Honey and Acacia Honey Based on Sugar and Amino Acid Profiles Combined with Machine Learning
编辑推荐:
本研究通过超高效液相色谱-串联质谱(UPLC-MS/MS)定量分析542份蜂蜜样本中的12种糖类和20种氨基酸,结合多层感知器(MLP)等机器学习算法,构建了高精度鉴别模型。经ADASYN过采样和10折交叉验证优化后,模型在独立测试集上对油菜蜜和洋槐蜜的预测准确率分别达98%和100%。SHAP可解释性分析确定果糖、松二糖、葡萄糖和γ-氨基丁酸(GABA)为关键差异标志物。研究还开发了用户友好的网页应用程序,为蜂蜜市场质量控制提供了创新技术框架。
引言
蜂蜜作为一种营养丰富的天然食品,因其独特风味和多种生物活性(如抗氧化、抗菌活性)而备受推崇。根据蜜蜂采集的花蜜来源,蜂蜜可分为多花蜜和单花蜜。单花蜜具有独特的植物源香气和特定的生物活性成分,因此在市场上通常价格更高。然而,并非所有单花蜜都具有相同的特性。例如,油菜蜜因其颜色与高价值的洋槐蜜高度相似,但风味相对普通,成分特异性较低,常被视为低价值单花蜜的代表。不幸的是,市场上普遍存在将低价值油菜蜜冒充为高价值洋槐蜜的欺诈行为,这不仅损害消费者权益,也扰乱了市场秩序。因此,开发一种精确高效的油菜蜜和洋槐蜜鉴别方法,对于确保蜂蜜市场的完整性和增强消费者信心至关重要。
材料与方法
化学品与试剂
研究使用了20种氨基酸标准品(纯度≥99%),包括天冬氨酸(Asp)、谷氨酸(Glu)、γ-氨基丁酸(GABA)、丝氨酸(Ser)等,以及12种糖类标准品(纯度≥98%),包括果糖、葡萄糖、蔗糖、松二糖、麦芽酮糖等。所有试剂均从合规供应商处采购。
样本制备与衍生化
总共542个蜂蜜样本(373个洋槐蜜样本和169个油菜蜜样本)直接从代表性养蜂场收集,置于密封食品级容器中,48小时内低温运输至实验室。抵达后,样本立即在-20°C黑暗环境中储存直至化学分析,以最大限度地减少酶活性和化学降解。样本预处理参考Yang等人的方法进行,涉及称重、盐酸溶液稀释、内标添加、苯异硫氰酸酯(PITC)和三乙胺衍生化、涡旋混合、静置、相分离以及微孔滤膜过滤等步骤。
UPLC-MS/MS分析条件
氨基酸衍生物使用配备Atlantis T3色谱柱的UPLC-MS/MS系统进行分析。色谱条件包括:柱温25°C,流速0.3 mL/min,流动相为乙腈(A)和10 mmol/L乙酸铵水溶液(B),采用线性梯度洗脱程序。质谱分析在正离子模式下的电喷雾电离(ESI)下进行,具体参数包括毛细管电压3.0 kV、脱溶剂温度350°C等。糖类含量分析则分别采用配备蒸发光散射检测器(UPLC-ELSD)的UPLC系统(分析10种寡糖)和配备示差折光检测器(HPLC-RID)的HPLC系统(分析果糖和葡萄糖)。
机器学习建模与分析
研究构建了包含12种糖和20种氨基酸浓度的32维特征矩阵。建模前,对每个特征进行标准化处理(x′ = (x - μ)/σ)。将油菜蜜和洋槐蜜样本分别分配二元类别标签0和1。采用了主成分分析(PCA)、t-分布随机邻域嵌入(t-SNE)和均匀流形近似与投影(UMAP)进行无监督降维和可视化。使用了五种机器学习算法(决策树、高斯朴素贝叶斯(GaussianNB)、线性判别分析(LDA)、轻量级梯度提升机(LightGBM)、k-近邻算法(KNN)和多层感知器(MLP))构建二元分类器。数据集按80:20的比例划分为训练集和测试集,并采用分层抽样以保持原始类别比例。模型训练采用10折交叉验证,并仅在训练数据的每个折次上应用自适应合成采样(ADASYN)技术来处理类别不平衡问题,验证集和测试集保持原始分布。通过RandomizedSearchCV进行超参数调优。特别地,MLP模型采用具有单个隐藏层(8个神经元)的架构,使用sigmoid激活函数和L-BFGS优化器,并引入L2正则化(系数0.01)以防止过拟合。模型性能通过准确率(ACC)、灵敏度(Sn)、特异性(Sp)、精确度(Precision)和马修斯相关系数(MCC)等指标进行评估。此外,采用SHAP(Shapley Additive Explanations)框架对最优模型进行可解释性分析,以量化每个特征对模型输出的边际贡献。
统计分析
使用SPSS软件包(版本17.0)进行统计学显著性分析。实验数据以均值±标准差表示。组间化合物浓度差异使用scipy库实现的Student t检验进行评估,p值<0.05被认为具有统计学显著性。使用matplotlib和seaborn库生成层次聚类热图。所有机器学习程序和分析均在Python 3.7环境中使用Scikit-Learn库完成。
结果与讨论
样本信息与来源描述
研究收集了具有代表性的蜂蜜样本数据集,作为研究高价值洋槐蜜和低价值油菜蜜之间差异的基本前提。具体而言,373个洋槐蜜样本来自陕西、甘肃、山西、河北、辽宁等11个省级行政区域。169个油菜蜜样本来自安徽、青海、四川、湖北、江苏等13个省份和自治区。这些样本均来自主要单花蜜源区的代表性养蜂场,所有蜂蜜品种均通过孢粉学分析和专家鉴定确认。对来自不同地区的蜂蜜进行了氨基酸组成和糖含量(如果糖、葡萄糖)的统计分析。方差分析(ANOVA)显示,同一类型蜂蜜的不同指标在不同地区间存在差异,表明本研究涉及的蜂蜜成分具有明显的地域特征,这也从化学成分角度解释了样本分布不均匀的客观原因,进一步证实了数据的异质性。
氨基酸与糖组成分析
蜂蜜的主要成分是碳水化合物——果糖、葡萄糖、蔗糖和其他糖类。这些糖的比例在不同植物的花蜜中各不相同。氨基酸来源于植物花蜜中固有的微量蛋白质和游离氨基酸,以及蜜蜂在采集和酿造过程中分泌的酶类物质,具有物种特异性。因此,糖类和氨基酸的种类与含量构成了区分蜂蜜品种和验证真伪的“化学指纹”。为了探究洋槐蜜和油菜蜜在糖类和氨基酸方面的差异,研究采用UPLC-MS/MS测定了542个蜂蜜样本中12种单糖和寡糖以及20种氨基酸的含量,并进行了差异分析。热图和聚类热图结果显示,两种蜂蜜在某些糖和氨基酸的含量上存在显著差异。在糖含量方面,松二糖、麦芽酮糖、麦芽糖、曲二糖、异麦芽糖、松三糖、松蔗糖和果糖在大多数洋槐蜜样本中含量较高,而油菜蜜样本中的葡萄糖含量高于大多数洋槐蜜样本。除棉子糖外,所有糖类在两种蜂蜜间均表现出显著差异(p值<0.05)。这些糖含量差异与不同植物花蜜中糖的合成、代谢和积累等方面的变异有关。植物中糖的合成(由蔗糖磷酸合成酶SPS介导)和转运(由SWEET9介导)机制直接决定了花蜜中糖的种类和含量,这可能进一步影响蜂蜜糖组成的后续差异。在氨基酸含量方面,除酪氨酸和苯丙氨酸外,所有氨基酸在两种蜂蜜间均显示出显著差异(p值<0.05)。热图结果表明,部分油菜蜜样本中的甘氨酸、GABA、苏氨酸和缬氨酸含量远高于洋槐蜜的整体水平,此类差异可能与当地生态环境有关。值得注意的是,大多数洋槐蜜和油菜蜜样本可以仅根据糖和氨基酸含量进行区分,但一小部分来自两种类型的样本表现出高度相似性,导致无法完全区分。
机器学习分析
研究采用PCA、t-SNE和UMAP三种降维方法对油菜蜜和洋槐蜜进行可视化分析。可以清楚地观察到,所有三种方法都能区分大多数油菜蜜和洋槐蜜样本,表明糖类和氨基酸可用于后续的监督学习分类建模。在三种降维方法中,t-SNE和UMAP两种方法取得了比PCA更好的区分性能,这是因为它们都属于流形学习范畴,能够揭示数据底层的非线性结构,呈现清晰的数据簇结构和局部密度分布。进一步地,使用五种监督分类机器学习算法结合ADASYN过采样方法,在80%的数据集上进行了10折交叉验证训练。其中,MLP算法取得了最高的ACC(0.998),优于其他四种模型。此外,MLP算法的Sn、Sp、MCC、AUC、精确度和F1-score分别为0.996、1、0.997、1、1和0.999。其中,Sn、MCC和F1-score优于其他模型,而Sp、AUC和精确度与K近邻算法相同。在混淆矩阵中,MLP模型在识别和分类方面优于其他模型,对油菜蜜实现了100%识别,对洋槐蜜的识别错误率极低。MLP算法的训练损失持续下降并趋于稳定,同时训练集和验证集的学习曲线逐渐接近并稳定,表明模型学习有效,且泛化性能良好。MLP在区分油菜蜜和洋槐蜜方面的高准确性与其强大的非线性表示能力和自动特征学习能力密切相关。在20%的测试集上,MLP模型在五种算法中取得了最高的AUC值(0.997),而其余指标与线性判别和高斯朴素贝叶斯模型一致。根据测试集的混淆矩阵,MLP对油菜蜜实现了100%识别,在68个洋槐蜜样本中仅有1个被误识别。两种蜂蜜在糖和氨基酸组成上存在显著差异,而测试集和训练集具有相似性;尽管同一类型蜂蜜的含量在训练集和测试集之间存在轻微波动,但整体分布高度一致,表明数据划分合理,未发生信息泄露。需要澄清的是,其他模型(如线性判别、KNN、决策树和高斯朴素贝叶斯)表现并不差,在训练集和测试集上取得了相近的性能,只是略低于MLP。这可能是因为蜂蜜的糖和氨基酸含量是连续的高精度化学计量数据,适合MLP这类能够对平滑非线性关系进行建模的模型;而基于决策树的方法依赖于特征分割,在捕捉细微的浓度梯度方面可能略显粗糙。总而言之,本研究基于糖类和氨基酸化学谱训练的MLP分类模型能够准确识别油菜蜜和洋槐蜜。
可解释性分析
采用SHAP方法对MLP模型进行可解释性分析。结果显示,在重要性排名前13的化合物(平均|SHAP值| > 0.04)中,碳水化合物占61.53%,且前6位的化合物均为碳水化合物,即果糖、松二糖、葡萄糖、松蔗糖、麦芽酮糖和松三糖。进一步分析特征值大小与预测影响之间的关系发现,果糖、松二糖、松蔗糖、麦芽酮糖和松三糖的红点(表示较大特征值)主要集中在SHAP值大于0的区域,表明这些化合物含量较高通常与洋槐蜜相关。相反,葡萄糖、赖氨酸和GABA含量较高(SHAP值<0)被模型识别为油菜蜜。这些结果与糖和氨基酸含量的显著性分析结果一致。此外,PCA-MLP决策边界可视化结果证明MLP模型能够准确识别油菜蜜和洋槐蜜。
网页应用开发
为了促进实际应用,快速区分洋槐蜜和油菜蜜并控制蜂蜜欺诈,研究利用Streamlit框架开发了一个具有基于网页界面的应用程序(可访问
https://github.com/panernie/HoneyID/)。该界面允许用户上传包含蜂蜜糖和氨基酸数据的CSV文件。提交文件后,点击“Predict”按钮即可启动分类任务,分类结果将在交互式仪表板中可视化。
结论
本研究通过靶向分析来自全国十余个省、直辖市和自治区的542个样本中的12种糖类和20种氨基酸,结合机器学习技术,建立了一种精确区分油菜蜜和洋槐蜜的方法。多变量分析揭示了两种蜂蜜类型在化学谱上的显著差异,并确定果糖、松二糖、葡萄糖和γ-氨基丁酸(GABA)为关键鉴别标志物。在六种机器学习算法中,优化的多层感知器(MLP)模型取得了最佳性能,在独立测试集上对油菜蜜和洋槐蜜的准确率分别达到98%和100%。SHAP可解释性分析进一步验证了模型决策的可靠性。此外,利用Streamlit框架开发了网页应用程序,实现了快速现场鉴别,为实际场景下的质量控制提供了实用工具。
本研究是一次将糖类和氨基酸的“化学指纹”与MLP相结合用于蜂蜜品种鉴别的尝试,克服了传统方法(如主观性强、效率低)的局限性。可解释性分析阐明了关键标志物的作用,为蜂蜜真实性验证提供了科学依据。实践证明,糖类和氨基酸成分结合机器学习可用于区分无法直接人工区分的蜂蜜品种,这为其他高糖或高氨基酸食品品种的鉴定提供了参考,对于规范蜂蜜市场和打击欺诈行为具有重要的实际意义,同时也为食品追溯和质量控制的技术创新提供了参考。
值得注意的是,本研究开发的模型专门用于区分油菜蜜和洋槐蜜。由于数据集仅包含这两种蜂蜜的糖和氨基酸特征,因此不适用于其他蜂蜜品种的鉴定。未来将在此基础上扩展研究,构建覆盖更多蜂蜜类别的精确鉴定模型。