综述:机器学习在食品风味预测与调控中的应用:模型、数据整合与未来展望

《Journal of Advanced Research》:Machine learning for food flavor prediction and regulation: models, data integration, and future perspectives

【字体: 时间:2025年10月17日 来源:Journal of Advanced Research 13

编辑推荐:

  本综述系统阐述了机器学习(ML)在食品风味预测与调控中的前沿应用。文章详细比较了支持向量机(SVM)、决策树(DT)等传统模型,以及XGBoost、LightGBM等集成算法和卷积神经网络(CNN)、人工神经网络(ANN)等深度学习方法,并探讨了电子鼻(E-nose)、电子舌(E-tongue)、气相色谱-质谱联用(GC–MS)等多模态数据整合策略。综述进一步展望了可解释人工智能(XAI)和数字孪生等未来方向,为食品风味研究从经验策略向智能预测系统的转型提供了重要参考。

  

引言

风味是决定食品品质和消费者喜好的核心属性。传统的感官评价方法,如专家品评小组和消费者测试,虽然能直接反映人类感知,但存在主观性强、通量低、可扩展性有限等固有缺点。随着高通量技术和多模态数据集的发展,机器学习(ML)已成为解析和调控复杂风味系统的有力工具。从1980年Kier首次提出基于配体的味觉分类器,到2019年卷积神经网络(CNN)应用于气味预测,再到近年来可解释人工智能(XAI)的引入,机器学习在风味科学中的应用经历了从经典QSAR方法到深度、可解释学习的显著演进。

风味表征的多模态方法

风味组学(Flavoromics)是一种将详细化学分析与先进数据分析相结合的综合策略,旨在理解食品的风味特征。在实践中,它整合了气相色谱-质谱联用(GC–MS)、气相色谱-离子迁移谱联用(GC-IMS)与电子鼻(E-nose)、电子舌(E-tongue)等人工感官工具。这些工具在多元统计模型的支持下,有助于弥合可测量的化学数据与人类风味感知之间的差距。

用于香气分析的色谱平台

在分析工具中,GC–MS和GC-IMS是研究食品挥发物的主要手段。GC–MS,特别是与顶空固相微萃取(HS-SPME)联用时,是食品风味研究的金标准。它能够在复杂的食品体系中鉴定出广泛的香气化合物,如酯类、醇类、醛类和酮类。然而,GC–MS通常涉及耗时的样品前处理。相比之下,GC-IMS速度更快且无需复杂前处理。它将短GC色谱柱与离子迁移检测器耦合,产生视觉直观的二维谱图。在许多研究中,GC–MS用于鉴定特定化合物,而GC-IMS提供快速指纹图谱,两者结合可以更全面地理解风味的复杂性。

用于风味评价的电子传感系统

电子鼻和电子舌等人工感官系统旨在模拟人类的嗅觉和味觉感知,提供快速、客观的食品风味评价。电子鼻由一组气体传感器(通常是金属氧化物半导体或导电聚合物)组成,用于检测挥发性化合物并生成数字信号模式。电子舌使用电化学传感器(通常是电位型或伏安型电极)来响应非挥发性呈味物质,如盐、糖、酸和氨基酸。这两种工具都能生成多维的“风味指纹”,可通过主成分分析(PCA)、线性判别分析(LDA)、偏最小二乘判别分析(PLS-DA)和神经网络等模式识别技术进行分析。尽管电子鼻和电子舌不能识别单个化合物,但由于其快速响应和最低限度的样品制备要求,它们在实时监测新鲜度、腐败和品质变化方面特别有效。

风味解释的多模态数据整合

现代风味组学越来越多地整合来自多个来源的数据,包括GC–MS、GC-IMS、电子鼻和电子舌,以实现对风味更全面的理解。这种多模态方法将来自色谱平台的分子水平信息与来自感官设备的感知水平响应联系起来,同时提供了化学精确度和整体评价。在实践中,整合通常通过两种策略实现。在特征层面,每个模态的描述符在模型训练之前合并到一个单一的特征矩阵中,使算法能够捕获跨模态的相互作用。在决策层面,为每个模态开发独立的模型,然后使用加权投票或堆叠等集成方法组合它们的输出,这增强了鲁棒性并减轻了单个模态的噪声。这些集成策略在食品质量控制和风味开发中特别有效。

用于食品风味建模的机器学习与可解释人工智能

基于上述数据特征,本节介绍机器学习模型,并将其方法学优势与它们最适合处理的风味数据类型联系起来。传统的风味评估方法严重依赖化学分析和人类感官评价,虽然在处理复杂、高维和非线性风味数据时存在局限性。为了应对这些挑战,机器学习(ML)已成为一套强大的工具,能够在食品系统中提取模式、建模感官响应并实现预测性控制。

传统监督学习方法

支持向量机(SVM)是最初为二元分类和回归开发的监督学习模型。它们通过核函数(如径向基函数RBF)将输入数据映射到高维空间,然后识别能够最大化类间间隔的最优分离超平面或回归边界。由于它们依赖于有限的支持向量,SVM在处理小型、高维和非线性数据集时特别有效。在风味研究中,SVM已被广泛用于风味预测任务,包括按口味特征对产品进行分类和预测感官得分。然而,SVM通常因其高维决策边界而缺乏可解释性。
决策树(DT)通过基于特征阈值递归分割数据来分类或预测结果,形成类似树的简单“如果-那么”规则结构。每个节点评估一个特定变量,例如挥发性化合物的浓度或传感器读数,并将样本导向终端叶节点的预测。这种结构使决策树具有高度可解释性,因为领域专家可以轻松追踪哪些特征对每个决策有贡献。决策树不需要复杂的优化,使其能够灵活处理混合数据类型并识别关键预测因子。然而,单棵树容易过拟合,并且通常性能低于集成模型。
k近邻(kNN)是一种非参数的、基于实例的算法,通过识别训练集中的k个最近邻来对样本进行分类或预测,通常使用欧几里得距离。它在分类任务中分配最频繁的标签,在回归任务中分配平均值。该方法概念简单,不需要显式的训练阶段,但对特征缩放和不相关变量敏感。kNN通常用作风味研究的基线,或与降维技术结合用于传感器或化学数据。尽管它缺乏可解释性并且对特征选择敏感,但其简单性使其成为一个有用的基线。

用于多维风味预测的高性能模型

随机森林(RF)是集成学习模型,结合了多个决策树以提高性能和稳定性。每棵树使用装袋法和随机抽样技术在不同的数据和特征子集上进行训练。预测通过多数投票(分类)或平均(回归)进行。RF模型在决策树的可解释性和提高的准确性及减少过拟合之间取得了平衡。RF在风味研究中特别有用,因为它们能够处理高维数据和多类问题。它们还提供特征重要性排名,使其既具有预测性又具有一定程度的可解释性。
极限梯度提升(XGBoost)是一种基于树的集成方法,通过顺序最小化先前预测的残差来构建加法模型。基于梯度提升框架,它结合了正则化、高效的切分查找和并行计算,以提高准确性和可扩展性。这些特性使其在处理结构化数据,特别是涉及高维、非线性或不完整输入的任务时表现出色。在风味研究中,XGBoost已成为一个广泛使用的工具,用于建模化学成分与感官感知之间的关系。
轻量梯度提升机(LightGBM)是一种高效的梯度提升框架,它使用按叶子生长的策略结合基于直方图的特征分箱来构建决策树。它针对速度和大内存使用进行了优化,使其特别适合大规模、高维数据集。与XGBoost类似,LightGBM原生处理缺失值和类别特征,并提供相当的准确性。在风味预测中,LightGBm在分类和回归任务中都表现出强大的结果。

深度学习方法

人工神经网络(ANN)是受生物神经系统结构启发的计算模型,由组织成层的互连节点(神经元)组成,这些节点通过加权连接处理信息。ANN,特别是通过反向传播训练的多层感知器,非常适合捕捉食品风味系统中固有的复杂非线性关系。通过从化学谱或传感器信号等输入到感官输出学习复杂的映射,ANN可以揭示更简单模型经常遗漏的香气化合物或传感器特征之间的相互作用。尽管功能强大,ANN也面临一些显著的限制。它们通常需要大量数据集进行有效训练,而这在风味研究中并不总是可用。当数据集小或嘈杂时,可能会发生过拟合,导致泛化能力差。此外,ANN的“黑箱”性质使得难以解释输入特征如何驱动预测——这在机制性风味研究中是一个关键缺点。
卷积神经网络(CNN)通过利用风味相关数据中固有的空间或光谱结构,在传统神经网络的基础上构建。它们的卷积层和池化层使它们能够检测局部特征,例如重叠的光谱峰或与香气相关的纹理模式,这使得它们在分析光谱数据、传感器热图甚至食品图像时特别有效。在风味建模中,CNN已显示出强大的潜力。无论是应用于咖啡等饮料,还是鱼和油等食品,基于CNN的模型通常达到75%到93%的准确率,展示了它们在高级风味预测中的实际效用。

风味预测中的可解释人工智能(XAI)

尽管集成和深度学习模型具有卓越的预测能力,但其“黑箱”性质仍然是风味科学的一个关键限制。在实际应用中,利益相关者,包括产品开发人员、感官科学家和监管机构,需要了解决策是如何做出的,特别是当风味调节决策影响产品标签、消费者感知或配方安全性时。为了解决这个问题,可解释人工智能(XAI)工具被采用,以从复杂模型中提取可解释的见解。其中,SHAP(Shapley加法解释)和LIME(局部可解释模型-无关解释)在食品风味研究中使用最广泛。

通过机器学习进行多维数据驱动的风味预测

使用机器学习进行食品风味预测涉及准确捕捉不同数据集与感官属性之间的复杂关系。本节深入概述了最新进展,根据输入数据类型对预测策略进行了分类,包括分子结构、物理化学性质、感官评价数据、仪器分析和多模态数据整合。

基于分子结构的风味预测

分子结构是风味感知的基础,决定了挥发性、溶解度、受体相互作用和代谢稳定性。几何形状、侧链取代基、芳香环和构象柔性等结构特征决定了感官结果,包括香气强度、甜度、苦度和风味持久性。这些特性为机器学习方法提供了基础,这些方法采用分子描述符和指纹来预测风味属性。早期的计算风味科学研究使用QSAR模型和分子指纹将结构与味道联系起来。最近的研究已转向可解释性和多维预测。深度学习和基于图的方法的进展进一步强调了结构信息的作用。

基于物理化学性质的风味预测

风味深受食品的物理和化学性质影响,例如pH值、粘度、水分活度、糖含量和挥发性化合物浓度。这些因素影响风味分子的相互作用方式、释放速度以及最终被感官感知的方式。例如,粘度较高的较稠质构可以捕获香气化合物并减少其释放,而pH值的变化会影响关键芳香分子的电离和挥发性。同时,来自训练有素的小组或消费者的感官反馈为仪器获得的数据提供了主观补充。通过整合这两种类型的数据,机器学习模型可以将客观的物理化学参数与主观风味感知联系起来,从而能够预测和优化特定的风味特征。

基于仪器数据的风味预测

现代风味分析越来越多地由电子鼻、电子舌、GC–MS和GC-IMS等精密仪器驱动。这些技术产生复杂且高维的化学数据,这使它们非常适合机器学习应用。通过客观地捕获与香气和味道相关的挥发性和非挥发性化合物,这些工具生成可测量输入的丰富数据集,机器学习算法可以学习将这些输入与感官品质相关联。以电子鼻为例,它是一个旨在模拟人类嗅觉的气体传感器阵列。当与深度学习结合时,它成为分类香气的强大工具。GC–MS仍然是挥发性化合物分析的金标准,现在经常与风味研究中的机器学习模型配对。与靶向方法不同,GC–MS产生全色谱图,这是代表广泛化合物谱的复杂输出。这些需要模式识别而不是简单的量化。在这方面,深度学习表现出色。GC-IMS是比GC–MS更快、灵敏度更高的替代方案,在风味科学中越来越受欢迎。其输出现在经常用于产品质量预测的机器学习流程中。当一起分析味道和香气时,组合来自多个仪器的传感器数据可以提供比单独依赖一个更好的预测。

风味预测中的多源数据融合

风味感知是由分子结构、物理化学性质、仪器输出和人类感官评价共同塑造的复杂性状。这些数据维度中的每一个都捕捉了风味的不同方面,但它们在尺度、特征分布和噪声上各不相同。分子描述符通常是高维且稀疏的,GC–MS、GC-IMS和电子鼻等仪器平台产生大量但嘈杂的指纹,而感官数据相对而言是低维且主观的。因此,整合这些互补但异质的数据集已成为风味建模的核心挑战,推动了多源异质数据融合的研究。

机器学习在食品风味调控中的未来

风味调控,即有目的地控制和修改食品风味特征,已成为食品科学中的一个关键焦点。风味在决定食品产品被消费者接受的程度方面起着关键作用,并最终塑造市场趋势。传统上,食品风味通过控制发酵过程中的微生物活动、调整加工技术或添加风味增强剂等方法进行调节。虽然这些方法可能有效,但它们通常耗时、成本高且难以精确控制。最近,机器学习(ML)已成为风味优化的强大新工具。凭借其强大的计算能力、高效率和更好的可控性,机器学习提供了传统方法的有前途的替代方案,并在整个食品行业引起越来越多的兴趣。

关键风味代谢物的鉴定与筛选

机器学习已迅速成为揭示食品风味化学基础的有价值工具。与受规模和主观性限制的传统感官小组不同,机器学习能够以高通量方式快速、客观地筛选风味活性代谢物。最近的研究表明,集成模型和神经网络可以有效地分析复杂的代谢组学数据,以识别与味道和香气最相关的化合物。代谢组学数据集通常是高维的,通常包含数千个检测到的特征,其中许多由于共享生物合成途径而高度共线性。为了应对这些挑战,在模型构建之前通常应用降维和特征选择。PCA和PLS在保留主要方差来源的同时降低维度。LASSO和弹性网络等正则化技术惩罚冗余变量并有助于识别信息性代谢物。基于树的集成算法,包括随机森林和XGBoost,对于代谢物筛选特别有利,因为它们固有地处理多重共线性并提供变量重要性的度量。

基因型-风味整合与育种靶点

通过机器学习将基因组学和代谢组学整合起来,为绘制作物风味的遗传基础打开了新的大门,使得能够以更高的精度为改善口味而育种。风味是一个复杂的多基因性状,历史上很难使用传统方法进行选择。通过将遗传标记与风味相关的详细代谢物谱相结合,机器学习模型可以揭示植物基因型与其感官特征之间通常是非线性的关系。这使得育种者能够在育种过程早期预测风味结果,而不是依赖多年的田间试验和口味测试。

风味化合物合成与反应预测

理解和建模负责风味形成的化学反应是食品科学的核心目标。美拉德反应、发酵和脂质氧化等基本过程既产生理想的香气,也产生不良的异味。这些途径的准确预测模型允许有针对性地控制加工条件,以增强有利的风味,同时抑制不需要的化合物。机器学习已成为建模这些多因素途径的强大方法,提供了比传统试错法更快、更可扩展的替代方案。最近的研究表明,机器学习不仅可以预测加工条件如何影响风味结果,还可以指导新香气分子的设计,标志着风味化学数据驱动时代的开始。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号