基于代谢组学与机器学习的武夷岩茶产地鉴别及"岩韵"物质基础解析
《Food Chemistry: X》:Machine learning based on metabolomics to discriminate Wuyi rock tea production areas and “rock flavor” substances
【字体:
大
中
小
】
时间:2025年10月22日
来源:Food Chemistry: X 6.5
编辑推荐:
本研究针对武夷岩茶产地鉴别缺乏科学标准及"岩韵"化学本质不清的问题,整合HS-SPME-GC–MS代谢组学与随机森林算法,构建了准确率达99%的产地判别模型,筛选出正岩、半岩、外山产地的标志性香气物质,为地理标志保护与工艺优化提供了理论支撑。
武夷岩茶作为乌龙茶的代表,以其独特的"岩韵"品质享誉海内外。这种独特风味的形成与武夷山丹霞地貌的微环境密切相关——特殊的风化岩土壤、峡谷小气候以及悠久的生态多样性共同塑造了武夷岩茶风味和化学成分的显著差异。然而,随着市场需求激增和产区概念的模糊化,武夷岩茶面临着产地溯源困难、品质良莠不齐等问题。传统的感官评价和理化指标分析方法虽然能在一定程度上区分不同产区的茶叶,但存在主观性强、重复性差等局限,难以满足现代茶叶品质控制的需求。
在此背景下,如何将现代分析技术与智能算法相结合,构建客观的产区判别模型并解析"岩韵"特性的化学本质,成为茶学领域亟待解决的关键问题。以往的研究多依赖于主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)等方法,在面对海量数据时分析能力不足。同时,关于"岩韵"感官评价与化学成分关联性的研究仍以经验描述为主,缺乏数据驱动的标志物筛选和机理解释。特别是作为正岩与外山过渡带的半岩茶,其代谢特征尚未明确界定,导致市场混淆现象频发。因此,迫切需要建立覆盖正岩、半岩、外山三大产区的鉴别体系,筛选与"岩韵"特性相关的潜在标志物。
江南大学生物工程学院的研究团队在《Food Chemistry: X》上发表了最新研究成果,该研究收集了2012-2024年间产自福建武夷山市的137个武夷岩茶成品茶样本(涵盖水仙和肉桂两大品种),按产区分为正岩(37样本)、半岩(29样本)和外山(71样本)三类。每个样本进行三次平行实验,最终获得411组数据样本。研究采用顶空固相微萃取-气相色谱-质谱(HS-SPME-GC–MS)技术获取挥发性代谢物谱,基于Python 3.8编程环境(Scikit-learn 1.0.2库)构建了七种机器学习分类模型,包括随机森林(RF)、支持向量机(SVM)、k-近邻(k-NN)等。通过五折交叉验证评估模型性能,利用特征重要性参数分析挥发性标志物与产区判别之间的显著关联。
研究在正岩、半岩和外山产区的411组数据中,通过HS-SPME-GC–MS共检测到92种挥发性化合物。分析发现,萜烯类、醇类和酯类是武夷岩茶的主要挥发性物质,其中萜烯类含量最为丰富。正岩产区检测到29种萜烯类物质,数量高于半岩(24种)和外山(22种)。正岩产区的醇类物质也相对丰富,检测到以苯甲醇和1-辛烯-3-醇为代表的10种物质。半岩产区含有比其他产区更多的N-杂环化合物,其中2-乙基-3,5-二甲基吡嗪是半岩产区独有的物质。外山产区在醛类、芳香类和酯类物质上相对丰富,但大多数物质并非外山产区独有,表明外山茶的特征香气可能不是由其独特的挥发性物质带来,而更可能受某些与其他产区共有的物质在较高浓度下的影响。
浓度分析显示,正岩产区的萜烯类和醇类物质浓度显著高于外山产区,这两类物质的丰富含量可能导致正岩产区显著的"岩韵"特征。半岩产区虽然检测到大量N-杂环化合物,但其浓度低于正岩和外山产区,因此可能不是半岩产区的特征物质。作为正岩与外山之间的过渡带,半岩产区的挥发性物质在数量和含量上大多介于两者之间,没有显著特征,这凸显了需要更精确的分类鉴定方法来解决此问题。外山产区的萜烯类和醇类含量显著较低,同时芳香类物质含量显著高于正岩产区,这可能是导致外山产区基本缺乏"岩韵"的宏观因素。
通过计算武夷岩茶挥发性化合物间的斯皮尔曼相关系数(ρ),研究发现相同类别的挥发性化合物表现出显著正相关,不同类别的挥发性化合物之间也存在一定的正相关性。这可能是因为在茶叶加工过程中,当茶叶在萎凋或做青阶段受到机械损伤时,多个代谢途径的酶促反应被同步激活,使得这些物质表现出一定的相关性。
结合物质代谢途径进一步分析发现,萜烯类物质之间存在显著正相关。这些物质主要通过甲羟戊酸途径和甲基赤藓醇磷酸(MEP)途径由香叶基焦磷酸等萜类前体氧化还原生成,或通过类胡萝卜素的氧化降解产生。在萎凋或做青阶段,茶叶的机械损伤激活相应的酶促反应,进一步促进萜烯类化合物的生成和释放。醇类物质通过脂肪酸代谢途径产生,在发酵阶段后可进一步氧化生成酮类。苯甲醇、苯乙醇、苯甲醛和苯乙醛通过莽草酸和苯丙酸代谢途径产生,通常在茶叶发酵或烘焙阶段产生。酯类物质在发酵过程中通过酯化作用产生,前体物质通过脂肪酸代谢途径生成。
研究还发现某些类型的挥发性化合物相对独立。一些醛类物质(如(Z)-4-庚烯醛和2,4-庚二烯醛)是在做青和做青阶段,鲜叶中的不饱和脂肪酸在机械损伤激活脂氧合酶(LOX)后催化氧化形成氢过氧化物,再经裂解酶进一步分解为短链醛类化合物。N-杂环化合物通过美拉德反应产生,并受烘焙工艺影响。芳香类物质如甲苯、对二甲苯和均三甲苯也在烘焙过程中产生。
为了明确不同产区间挥发性化合物的变化趋势,研究使用K-Means聚类分析将92种物质按照不同变化模式分为8类。其中,第2类和第8类物质在正岩产区的含量高于半岩和外山产区,第6类物质在正岩和半岩产区的含量均高于外山产区。这三类物质可被视为优质产区含量较高的物质,共包含47种物质,占所有检测到的挥发性物质的一半。这些物质普遍具有花香、果香和木香等香气特征,可能是高品质正岩产区岩茶的香气特征。
第4类和第7类物质在半岩产区的含量高于其他两个产区,共25种物质,大多数具有花香属性。但由于半岩产区的物质种类不如正岩产区丰富,其花香特征可能略逊于正岩产区。第5类物质在外山产区的含量显著高于正岩和半岩产区,这些物质具有青草香气特征,且数量较少,表明外山产区的岩茶不仅花香、果香和木香属性较弱,还可能带有青草气,这是导致外山产区基本缺乏"岩韵"的重要因素。
研究构建了七种机器学习分类模型,以武夷岩茶的代谢组学数据作为输入,武夷岩茶的产区作为输出。通过将数据集分层随机分为训练集(80%)和测试集(20%),采用五折交叉验证评估模型性能。结果显示,随机森林模型在武夷岩茶产区的分类方面表现最佳,准确率高达99%,精确度、召回率和F1分数均接近完美。k-NN的分类预测结果也较好,但整体性能略逊于随机森林模型。决策树的分类预测结果最差,准确率仅为85%。
混淆矩阵和受试者工作特征曲线(ROC曲线)显示,在20%的测试集中,随机森林模型仅将一个半岩产区样本误预测为外山产区样本,其他样本均预测正确(AUC > 0.99)。随机森林是一种基于集成学习的分类算法,通过构建多个决策树,结合Bootstrap采样与随机特征选择,最终通过多数投票机制输出分类结果。该模型具有精度高、抗过拟合和可解释性强等特点,特别适用于高维数据分类和特征重要性评估。
3.5. 模型分析识别不同产区的标志性"岩韵"物质
通过分析随机森林分类模型并评估挥发性物质的特征重要性,研究定量描述了挥发性物质特征对模型分类的贡献程度,明确了正岩、半岩和外山产区的特征性"岩韵"物质。计算最优随机森林模型的特征重要性并排序后,筛选出8种在产区识别中起重要作用的物质:热醇、癸酸甲酯、(Z)-4-庚烯醛、二氢猕猴桃内酯、苯甲醇、庚醛、反式橙花叔醇和2,4-庚二烯醛。
热醇对模型的影响最大,在正岩产区的浓度依次高于半岩和外山产区,各产区的OAV值均大于1,表明该物质对武夷岩茶的香气特征有突出贡献。二氢猕猴桃内酯、苯甲醇和反式橙花叔醇在正岩产区的浓度也相对较高,这些物质是茶叶中重要的香气成分,带来花香、果香和木香等香气特征。
作为正岩与外山之间的过渡带,半岩产区的物质含量大多介于两个产区之间。特征性"岩韵"物质热醇、苯甲醇和反式橙花叔醇在正岩产区含量丰富,在半岩产区也有较高含量,为半岩产区提供花香、果香和木香等香气特征,但整体强度低于正岩产区。此外,庚醛在半岩产区含量相对较高,具有果香,被认为是半岩产区的特征性"岩韵"物质。
癸酸甲酯、(Z)-4-庚烯醛和2,4-庚二烯醛在外山产区的含量相对较高。(Z)-4-庚烯醛和2,4-庚二烯醛具有脂肪和青草香气,对应外山产区茶的"青气"特征。这两种烯醛物质是在做青和做青阶段,通过机械损伤激活LOX途径从鲜叶中的不饱和脂肪酸生成。后续的发酵和烘焙会降低烯醛物质的含量,增加N-杂环化合物和酯类物质的含量。因此,外山产区岩茶品质相对较差的原因可能是由于种植环境的影响,外山产区的鲜叶积累了更多的不饱和脂肪酸前体,在茶叶加工过程中被氧化生成具有青草香气特征的烯醛物质。
该研究通过整合代谢组学和机器学习技术,系统分析了武夷岩茶的产区特征及其"岩韵"形成的物质基础。研究发现正岩产区相对富含萜烯类、醇类和酯类,半岩产区萜烯类化合物相对丰富,外山产区醛类物质突出。基于挥发性代谢物谱构建的产区判别模型在正岩、半岩和外山产区茶的分类中准确率超过85%,其中随机森林模型表现最佳(准确率99%)。通过特征重要性分析,筛选出正岩产区的标志性物质为热醇、二氢猕猴桃内酯、苯甲醇和反式橙花叔醇;半岩产区的标志性物质为热醇、苯甲醇、反式橙花叔醇和庚醛;外山产区的标志性物质为癸酸甲酯、(Z)-4-庚烯醛和2,4-庚二烯醛。
这项研究创新性地将挥发性代谢物与机器学习相结合,为武夷岩茶的产地溯源提供了高精度的技术手段,同时揭示了"岩韵"特征的关键化学标记物。研究成果不仅为地理标志产品保护建立了科学评价体系,也为低品质岩茶的工艺改良提供了科学依据。未来通过扩大样本收集范围,结合转录组学和微生物组学技术,深入分析"岩韵"形成的多组学调控网络,将为武夷岩茶的品质提升和产业发展提供更全面的理论支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号