
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:数据挖掘在食品风味分析中的进展:技术、应用与未来方向的全面评述
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Future Foods CS5.8
编辑推荐:
这篇综述系统梳理了数据挖掘技术在食品风味研究中的应用,涵盖风味组学(flavoromics)、多变量数据处理策略及人工智能(AI)和大型语言模型(LLMs)的创新方法。文章重点探讨了从风味分子预测到食谱开发的前沿技术,并分析了当前挑战与机遇,为食品科学领域提供了标准化研究框架。
食品风味领域存在大量来自风味组学、数据库和社交媒体的结构化与非结构化数据。为高效提取信息并促进应用,数据挖掘技术被广泛采用。本文系统综述了食品风味数据挖掘的多元数据处理策略,探讨了针对小数据集和复杂人工数据准备的预处理方法,并总结了基于人工智能(AI)和大型语言模型(LLMs)的创新方法在风味分子预测和食谱开发中的前景。
现代社会中,食品风味数据通过在线数据库、社交媒体和化学实验不断生成,但其复杂性限制了有效利用。风味组学通过化学方法探索化合物与风味的关联,通常依赖仪器分析和统计方法,但实验流程复杂且数据稀缺。数据挖掘技术通过整合多源数据(如仪器数据库和在线评论)提升分析效率,而大型语言模型(LLMs)和多模态技术进一步推动了大规模数据处理。
文献检索聚焦2013年至2024年间的食品风味数据挖掘研究,筛选自Web of Science、IEEE和Google Scholar的497篇文献,最终纳入274篇。关键词共现网络分析揭示了研究热点。
数据挖掘流程分为数据收集、预处理、分析和可视化。数据源包括风味组学实验、在线数据库和社交媒体。常用技术包括偏最小二乘法(PLS)、主成分分析(PCA)和随机森林(RF),而自然语言处理(NLP)和LLMs多用于食谱开发任务。
通过气相色谱-质谱联用(GC-MS)、电子鼻(E-Nose)等技术获取挥发性有机物(VOCs)和非挥发性化合物数据,结合感官评价建立风味特征关联。
分为风味数据库(如FlavorDB)、化学数据库(如PubChem)和食谱数据库(如Recipe1M),用于分子特性分析和跨模态数据集构建。
通过爬虫系统收集消费者评论,应用长短期记忆网络(LSTM)等模型分析,替代传统感官评估。
质谱(MS)数据需基线校正、噪声过滤和特征提取;光谱数据采用多元散射校正(MSC)等方法;电子鼻信号通过快速傅里叶变换(FFT)降维。
SMILES字符串通过RDKit工具包转换为分子指纹或结构图;食谱文本需分词和向量化处理。
清洗后应用词频-逆文档频率(TF-IDF)或BERT模型提取特征,结合情感分析提升客观性。
PLS和SVM用于风味组学数据的非线性建模;定量构效关系(QSAR)和深度学习预测分子风味属性。
PCA可视化关键化合物,深度学习模型(如psCNN)分离核磁共振(NMR)谱中的组分。
SVM和RF鉴别食品真伪;NLP分析社交媒体文本差异。
基于食物配对原则,FlavorGraph等图谱嵌入技术优化推荐系统,LLMs实现多模态食谱生成。
R语言和Cytoscape生成热图与网络图,知识图谱整合风味成分与消费者偏好,支持个性化膳食设计。
当前感官数据难以被社交媒体完全替代,且传统统计方法在深度学习模型中表现有限。未来需探索AI在分子风味识别和多模态数据融合中的应用,如生成模型扩充数据集。
数据挖掘技术正从传统机器学习向LLMs和多模态系统拓展,但分子风味研究仍存空白。数据库的完善为AI模型训练提供支持,有望推动食品科学的革新。
生物通微信公众号
知名企业招聘