综述:数据挖掘在食品风味分析中的进展:技术、应用与未来方向的全面评述

【字体: 时间:2025年06月06日 来源:Journal of Future Foods CS5.8

编辑推荐:

  这篇综述系统梳理了数据挖掘技术在食品风味研究中的应用,涵盖风味组学(flavoromics)、多变量数据处理策略及人工智能(AI)和大型语言模型(LLMs)的创新方法。文章重点探讨了从风味分子预测到食谱开发的前沿技术,并分析了当前挑战与机遇,为食品科学领域提供了标准化研究框架。

  

摘要

食品风味领域存在大量来自风味组学、数据库和社交媒体的结构化与非结构化数据。为高效提取信息并促进应用,数据挖掘技术被广泛采用。本文系统综述了食品风味数据挖掘的多元数据处理策略,探讨了针对小数据集和复杂人工数据准备的预处理方法,并总结了基于人工智能(AI)和大型语言模型(LLMs)的创新方法在风味分子预测和食谱开发中的前景。

1. 引言

现代社会中,食品风味数据通过在线数据库、社交媒体和化学实验不断生成,但其复杂性限制了有效利用。风味组学通过化学方法探索化合物与风味的关联,通常依赖仪器分析和统计方法,但实验流程复杂且数据稀缺。数据挖掘技术通过整合多源数据(如仪器数据库和在线评论)提升分析效率,而大型语言模型(LLMs)和多模态技术进一步推动了大规模数据处理。

2. 方法论

文献检索聚焦2013年至2024年间的食品风味数据挖掘研究,筛选自Web of Science、IEEE和Google Scholar的497篇文献,最终纳入274篇。关键词共现网络分析揭示了研究热点。

3. 数据挖掘在风味研究中的概述

数据挖掘流程分为数据收集、预处理、分析和可视化。数据源包括风味组学实验、在线数据库和社交媒体。常用技术包括偏最小二乘法(PLS)、主成分分析(PCA)和随机森林(RF),而自然语言处理(NLP)和LLMs多用于食谱开发任务。

4. 数据收集

4.1 风味组学数据

通过气相色谱-质谱联用(GC-MS)、电子鼻(E-Nose)等技术获取挥发性有机物(VOCs)和非挥发性化合物数据,结合感官评价建立风味特征关联。

4.2 在线数据库

分为风味数据库(如FlavorDB)、化学数据库(如PubChem)和食谱数据库(如Recipe1M),用于分子特性分析和跨模态数据集构建。

4.3 社交媒体

通过爬虫系统收集消费者评论,应用长短期记忆网络(LSTM)等模型分析,替代传统感官评估。

5. 数据预处理

5.1 风味组学数据

质谱(MS)数据需基线校正、噪声过滤和特征提取;光谱数据采用多元散射校正(MSC)等方法;电子鼻信号通过快速傅里叶变换(FFT)降维。

5.2 数据库数据

SMILES字符串通过RDKit工具包转换为分子指纹或结构图;食谱文本需分词和向量化处理。

5.3 社交媒体数据

清洗后应用词频-逆文档频率(TF-IDF)或BERT模型提取特征,结合情感分析提升客观性。

6. 数据分析

6.1 风味预测

PLS和SVM用于风味组学数据的非线性建模;定量构效关系(QSAR)和深度学习预测分子风味属性。

6.2 风味鉴定

PCA可视化关键化合物,深度学习模型(如psCNN)分离核磁共振(NMR)谱中的组分。

6.3 食品分类

SVM和RF鉴别食品真伪;NLP分析社交媒体文本差异。

6.4 食谱开发

基于食物配对原则,FlavorGraph等图谱嵌入技术优化推荐系统,LLMs实现多模态食谱生成。

7. 数据可视化

R语言和Cytoscape生成热图与网络图,知识图谱整合风味成分与消费者偏好,支持个性化膳食设计。

8. 挑战与机遇

当前感官数据难以被社交媒体完全替代,且传统统计方法在深度学习模型中表现有限。未来需探索AI在分子风味识别和多模态数据融合中的应用,如生成模型扩充数据集。

9. 结论与展望

数据挖掘技术正从传统机器学习向LLMs和多模态系统拓展,但分子风味研究仍存空白。数据库的完善为AI模型训练提供支持,有望推动食品科学的革新。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号