《Microchemical Journal》:Integrative FTIR spectral analysis and machine learning for authentication and classification of edible and essential oils
编辑推荐:
本研究构建了包含30种食用及精油的大规模FTIR光谱数据库,结合SVM和随机森林等机器学习模型实现100%油类分类准确率,并通过外部验证证明模型在真实市场条件下的可靠性。创新性采用相似性方法评估混合油比例,并运用网络分析可视化光谱关联性,为油品掺假检测与质量监控提供高效解决方案。
Niloofar Rahmani|Ahmad Mani-Varnosfaderani
化学计量学与化学信息学实验室,塔比阿特莫达雷斯大学化学系,德黑兰,伊朗
摘要
本研究旨在开发一个包含3000多种光谱的傅里叶变换红外(FTIR)光谱数据库,这些光谱来自30种可食用和精油,为检测油品掺假和质量控制提供了宝贵的资源。通过斯皮尔曼相关系数和欧几里得距离评估了光谱相似性,揭示了不同油类之间的明显聚类模式和成分差异。包括支持向量机和随机森林(RF)在内的先进机器学习模型实现了100%的分类准确率,能够根据光谱特征有效区分油类。重要的是,通过独立收集的商业油样进行外部验证,进一步评估了模型的可靠性,证明了其在真实市场条件下的强劲表现。一种基于相似性的方法能够准确估计多油混合物中的油比例。为了检测掺假情况,分析了600种向日葵油与高品质油的二元混合物,RF模型的预测准确率很高,R2值介于0.977–0.996之间,均方根误差(RMSE)值为1.459–6.093%(v/v)。网络分析通过可视化油类之间的复杂光谱关系进一步增强了数据的可解释性。本研究将大规模FTIR光谱数据库、商业样本验证、多油掺假建模、先进机器学习和网络分析整合到一个统一的框架中,为油品质量保证提供了一种新颖、可靠且稳健的方法,并为食品行业提供了宝贵的资源。
引言
食用油是不饱和脂肪酸和脂溶性维生素的主要膳食来源,在全球范围内广泛消费[1],[2]。这些油通常由约98%的三酰甘油组成,同时还含有少量影响营养价值和质量的生物活性化合物[3]。2025年全球食用油产量约为2.28亿吨,其中大豆油、菜籽油、向日葵油、花生油、棉籽油、椰子油和橄榄油的消费量尤为突出[4],[5]。伊朗每年的食用油消费量约为150万吨,芝麻油、橄榄油、向日葵油、椰子油和杏仁油在该国的饮食和食品工业中占据重要地位[6]。由于食用油具有很高的经济价值且消费广泛,尤其是高品质产品,它们经常受到低成本油的掺假。最近的一项全球评估显示,每年约有6.92%的食用油和脂肪受到掺假,这引发了人们对食品质量、消费者信任和法规遵守的严重担忧[8],[9]。因此,开发可靠的油品鉴定方法在食品行业中至关重要。
精油因其生物活性特性(如治疗、抗菌和抗氧化作用)而在食品、化妆品和医药行业中得到广泛应用[10]。它们主要由萜烯、酯类和醛类等挥发性生物活性化合物组成,这些成分决定了它们的独特香气和功能特性[11]。由于精油的高市场价值,它们特别容易受到掺假,通常是通过添加合成物质或低成本提取物来实现的[12],[13]。这些普遍存在的掺假行为凸显了开发快速、可靠和准确的分析技术的重要性,以确保食品、化妆品和医药行业的真实性和质量控制。
已经开发了许多用于油品鉴定的分析方法,包括色谱[14]、光谱[15]、[16]和光谱测量[17]方法[18]。例如,Carranco等人[14]表明,结合化学计量学的高性能液相色谱指纹技术可以有效鉴定和检测特级初榨橄榄油中的掺假。Quintanilla-Casas等人[17]指出,气相色谱-质谱结合化学计量学分析是一种基于地理来源鉴定特级初榨橄榄油的可靠方法。Lim等人[19]报告称,核磁共振光谱结合机器学习可以准确分类和量化食用油及掺假混合物中的芝麻油。虽然这些方法提供了详细的成分信息,但它们通常成本较高、耗时较长且需要大量的样品准备,这限制了它们在快速筛查和大规模监测中的应用[20]。振动光谱技术,特别是傅里叶变换红外(FTIR)光谱,提供了快速、无损的替代方法,可以生成与官能团和整体化学组成相关的分子指纹信息。
在振动光谱技术中,FTIR光谱已成为分析油样最广泛使用的工具之一。这是因为它对官能团的基本振动模式具有高灵敏度,并能够捕捉复杂脂质基质中的细微结构变化[21],[22],[23]。与其他通常在食用油中产生较少强吸收带的振动光谱方法相比,FT-IR光谱具有更高的吸收特征密度,从而形成了信息更丰富的光谱指纹[23]。这种增强的光谱复杂性,加上快速的数据采集、最小的样品准备需求和高测量重复性,突显了FTIR光谱的优势。因此,FTIR特别适合高通量分析和开发用于常规鉴定的大规模光谱数据库。
最近关于油品鉴定技术的综述一致表明,当FTIR光谱与化学计量学分析结合使用时,由于其高信息含量和快速采集能力,成为最常用的光谱技术之一[24],[25]。例如,Yuan等人[26]应用FTIR光谱结合偏最小二乘判别分析(PLS-DA)对五种商业植物油进行了分类,在校准集和预测集中均实现了100%的正确分类。Ye等人[27]使用基于FTIR的判别分析和PLS回归区分了11种食用油,并鉴定了山茶油与其他植物油。Fediuc和Oroian[28]应用FTIR光谱鉴定了被三种常见植物油掺假的核桃油。他们的发现证明了FTIR光谱在检测油样掺假方面的适用性。
然而,在大多数基于FTIR的鉴定研究中,一个重要的实际限制常常被忽视。大多数现有方法隐含地假设基础油已知,然后专注于检测相对于该预定义类别的掺假情况。因此,通常需要预先了解油类及其预期成分。当应用于真实市场场景时,这样的目标框架存在局限性,因为油样可能未标记、标记错误或来源未知。在这种情况下,传统的基于FTIR的模型无法可靠地识别油类或其成分复杂性,尤其是在涉及多组分混合物时。此外,大多数先前的研究通常涉及较少的油类类型、有限的掺假情况(通常是二元混合物)和相对较小的光谱数据集,这限制了它们的通用性和实际应用性。这些限制凸显了开发一个涵盖广泛常用食用油和精油的全面FTIR光谱参考数据库的迫切需求,以便在无需预先假设油类身份的情况下进行识别。
在本研究中,我们通过开发一个包含30种广泛消费的食用油和精油的大规模FTIR光谱数据库来满足这一需求。该数据库旨在支持无需预先了解油类类型或成分的油样无目标鉴定。利用这个参考数据集,我们进行了基于相似性的分析以探索光谱关系并估计多组分混合物中的油比例,同时应用了监督机器学习模型进行多类区分。为了提高可解释性,使用网络分析了数据库中的光谱相似性模式。所开发的FTIR光谱数据库作为补充信息提供,供研究社区开放访问,为现实市场条件下的油品鉴定提供了可扩展的分析资源。
部分摘录
样品制备和油提取
在本研究中,准备了30种不同的食用油和精油。检测了20种食用油,包括芝麻油、花生油、榛子油、核桃油、向日葵油、玉米油、杏仁油、橄榄油、鳄梨油、椰子油、菜籽油、大豆油、亚麻籽油、黑种草籽油、葡萄籽油、枣油、开心果油、杏籽油、南瓜籽油和小麦胚芽油。此外,还研究了10种精油,包括薄荷油、小豆蔻油、百里香油、茴香油、孜然油、黑孜然油、生姜油、玫瑰油和泽尼安油。所有样品
食用油和精油的FTIR光谱
图1展示了30种不同食用油和精油的收集FTIR光谱。对这些光谱的分析表明,所有油类的整体光谱模式大体相似,具有与其化学结构中的官能团相对应的特征吸收带。在2850–2950 cm?1区域,存在强烈的吸收带,这些吸收带对应于烷基链的C-H伸缩振动,特别是来自-CH?和-CH?基团[25]
结论
在本研究中,我们成功开发了一个全面的FTIR光谱数据库,并应用了先进的机器学习技术来鉴定和分类油类,探索光谱模式,并检测了多种伊朗食用油和精油中的掺假情况。通过分析30种不同油类的FTIR光谱,我们应用了包括SVM、PLS-DA、RF和kNN在内的监督学习模型,实现了准确的分类。基于斯皮尔曼相关系数和欧几里得距离的方法
作者贡献声明
Niloofar Rahmani:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、软件、方法论、调查、正式分析、数据管理、概念化。Ahmad Mani-Varnosfaderani:撰写 – 审稿与编辑、撰写 – 原始草稿、验证、监督、项目管理、调查、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作基于伊朗国家科学基金会(INSF)资助的项目(项目编号:4026200)的研究。作者感谢塔比阿特莫达雷斯大学对这一项目的财政支持。