《Current Opinion in Food Science》:Sensory Applications of Natural Language Processing and Text Analysis in Practice: A Review of Recent Literature
编辑推荐:
文本分析在感官科学中的应用研究:系统综述2020-2024年27篇论文发现,该方法多用于产品喜好驱动因素分析,采用中心位置测试等小样本数据,依赖半手动文本归一化和传统分析流程,但缺乏标准化验证工具和高效计算支持。
Leah M Hamilton | Rebecca J Miller | Jacob Lahne
弗吉尼亚州立大学农业研究服务部,1 Hayden Dr PO Box 9061,弗吉尼亚州立大学,VA 23806,美国
收集和分析自然语言或自由文本数据在感官科学中越来越受欢迎。支持者认为这些方法更加灵活和全面,能够在更自然的环境中收集情感性和描述性数据。为了评论感官科学中文本数据来源、方法和研究问题的现状,我们回顾了27篇近期(2020-2024年)研究食品描述性感官特性的论文。大多数被回顾的论文要么将文本分析与其他感官方法进行比较,要么使用文本分析来确定消费者偏好的驱动因素。大多数研究使用的是中心位置测试数据(<100名受试者,<10种产品)。大多数研究采用半手动文本规范化、计数表和降维方法来分析数据,这也反映了传统的感官分析方法。
引言
感官科学旨在准确、可重复地测量人类对食品和消费产品的感官反应和体验[1]。早期的感官科学家借鉴并扩展了心理物理学理论和方法,以分离食品的个别内在特性[2]。客观(分析性)和主观(愉悦性)反应都是通过经过验证的量表和实验控制来测量的,但从未在同一测试中对同一人群进行过同时测量[1]。传统的区分测试、描述性测试和情感测试分别关注测量的精确性和特异性:感官差异的存在、性质和影响。
这些高度专注的传统感官方法无法满足日益复杂的感官和消费者研究需求。能够快速描述并深入洞察消费者体验的方法越来越受到重视[3, 4],其中许多方法依赖于文本或自然语言数据。文本数据具有描述性和情感性的双重特点,可以从未经训练的受试者在多种情境下快速收集,并且可以从大量样本或受试者中汇总,然后进行定性或定量分析[3](第16章)。感官评估中的定量文本分析现在已经足够重要,值得进行批判性评价。
感官科学中开发的第一个定量文本分析方法有多种名称,包括“评论分析”、“文本数据分析”、“逐字分析”或“传统文本分析”,主要是手动完成的[例如,5, 6]。分析师首先将文本数据“分词”成单词或短语,然后合并同义词以创建词汇表。最后,分析师将词汇表应用于消费者的评论中,分析这些词组的出现频率。
自然语言处理(NLP)是一门基于计算语言学的“自动化”定量文本分析学科,可以提取、处理和分析文本数据,例如许多快速感官方法产生的数据[7]。尽管一些术语可能不熟悉,但NLP自动化了传统手动文本分析中的相同步骤,同时据称可以避免一些偏见和时间限制。虽然我们会讨论NLP方法,但不会全面描述所有NLP方法。Hamilton和Lahne最近的一章[3](第16章)回顾了与感官科学相关的文本挖掘方法,而Jurafsky和Martin的教科书[8]提供了NLP的概述。
本文回顾了2020-2024年间定量分析特定真实食品或饮料的味道、质地或其他感官特性的自然语言描述的数据来源、方法和研究目标。我们重点关注27篇近期研究中的文本分析[7**, 9, 10, 11, 12, 13, 14, 15, 16, 17*, 18*, 19**, 20, 21, 22*, 23*, 24*, 25, 26, 27, 28**, 29, 30*, 31**, 32, 33*, 34],这些研究的广泛目标和方法在表1中进行了总结。有关论文选择的详细信息,请参阅补充信息。
我们将讨论文本数据中的感官特征,因为一般的NLP文献中充满了测量自然语言情感或情绪的方法。分析自然语言描述中的感官特征,特别是形容词,是感官研究中的独特之处。
感官文本数据从何而来?
文本挖掘被认为有助于从更多样化和自然的环境中收集或提取数据。我们的语料库使用了来自感官研究和互联网来源的书面文本数据。20项研究使用了来自感官消费者测试的文本数据,包括15项中心位置测试(CLTs)和6项家庭使用测试(HUTs),而7项研究使用了在线数据来源。
在感官研究中,开放式评论(FC)是最常见的文本生成方式。
为什么感官研究人员使用文本分析?
在许多学科中,NLP的应用是由“大数据”推动的,先进的模型和高度自动化利用的数据集规模远大于感官科学中使用的数据集[8, 35]。我们语料库中的大多数论文(23/27)评估了30种或更少的产品(每种产品至少3个样本);其余4/27篇论文使用了描述621到6000种产品的非实验数据。3/27项研究能够结合来自不同类型来源的描述(例如,环境数据和实验数据)。
感官研究人员使用哪些文本分析方法?
我们语料库中的论文采用了类似的、大致分为6个步骤的工作流程:文本数据收集、非文本数据收集、规范化、术语过滤、语义表示和统计分析。每篇论文的总体方法可以在表1中看到,图2提供了概述。
我们语料库中的大多数论文使用了调查中的开放式评论类型数据(见“感官文本数据从何而来?”),使用常见的感官调查软件或转录的纸质问卷。有两篇论文使用了全部数据。
结论与建议
值得注意的是,我们语料库中方法论论文的占比很高,这些论文通常将文本挖掘和分析与更被接受的方法进行比较。我们认为,在应用研究人员能够有效决定何时使用自动化文本分析之前,感官文本分析仍需要更清晰的性能指标和更适合感官文本分析的自动化工具。在提出方法论研究的优先事项之后,我们将简要介绍...
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。