太赫兹光谱与拉曼光谱融合技术:陈皮种类鉴别的新利器

【字体: 时间:2025年03月10日 来源:Heliyon 3.4

编辑推荐:

  研究人员融合太赫兹光谱与拉曼光谱,结合支持向量机(SVM)鉴别陈皮种类,模型准确率达 96.8%,为中药和食品行业提供新方法。

  # 太赫兹光谱与拉曼光谱融合技术鉴别陈皮种类的研究解读
在中华传统医学和美食文化中,陈皮(Pericarpium Citri Reticulatae,PCR)可是个 “宝藏” 存在。它不仅是一味常用的中药材,能理气健脾、燥湿化痰,还能为各种美食增添独特风味。然而,市场上的陈皮种类繁多,不同产地、年份的陈皮,药用价值和市场价格差异巨大。比如,广东新会产的广陈皮,就因品质上乘而备受青睐,价格也相对较高。
在这样的背景下,准确鉴别陈皮的种类变得至关重要。但传统的鉴别方法却存在不少问题。像靠品尝、闻味、触摸等主观感官分析,结果容易受个人经验和主观因素影响,缺乏准确性;而化学检测方法,虽然能检测出陈皮中的成分,但不仅操作繁琐,还具有破坏性,需要专业人员操作,时间成本高,且实验结果容易受化学试剂的影响,重复性差。因此,寻找一种高效、可靠的陈皮鉴别方法迫在眉睫。

为了解决这些难题,电子科技大学太赫兹中心、中国科学院空天信息创新研究院粤港澳大湾区研究院等机构的研究人员开展了一项极具创新性的研究。他们将太赫兹光谱(Terahertz spectroscopy,THz)和拉曼光谱(Raman spectroscopy)数据与机器学习相结合,构建模型来识别不同产地和年份的陈皮。相关研究成果发表在《Heliyon》杂志上。

研究人员主要采用了以下几种关键技术方法:
首先是样本制备,7 组陈皮样本分别来自广东新会不同产地或为人工制作,将其制成干粉压片,每种制备 50 个样本,共 350 个。然后,利用太赫兹时域光谱系统(TAS7500SP)和显微拉曼光谱仪(ATR8300)分别采集太赫兹光谱和拉曼光谱数据。在数据处理阶段,对太赫兹光谱进行小波阈值去噪、时域窗口函数处理和快速傅里叶变换(FFT)等操作;对拉曼光谱进行小波阈值去噪和基线校正处理。最后,运用支持向量机(SVM)、卷积神经网络(CNN)、K 近邻算法(KNN)等机器学习算法,结合主成分分析(PCA)、T 分布随机邻域嵌入(t-SNE)等降维方法构建分类模型,并通过网格搜索交叉验证算法寻找最优超参数。

下面来看具体的研究结果:

  1. 不同陈皮种类的光谱特征:不同种类陈皮的太赫兹时域传输波形和频域光谱存在差异,但在 0.38 - 1.8THz 范围内无明显特征吸收峰,且光谱差异较小,难以通过简单特征提取模型准确鉴别。拉曼光谱方面,所有陈皮在 1607cm-1处都有一个突出的拉曼峰,与黄酮类和酚类化合物有关,但仅依据该峰强度差异鉴别陈皮不够准确。
  2. 不同模型的构建与比较:研究人员用 7 种不同类型的 350 个陈皮样本,按 4:1 分为训练集和测试集。研究发现,对于太赫兹数据,结合 PCA 降维的模型(如 KNN + PCA、SVM + PCA)在识别不同种类陈皮时,准确率更高,能有效去除冗余噪声信息,保留关键特征频率点。而 CNN 模型在处理 2D 图像数据时,准确率低于基于 1D 归一化光谱数据训练的模型。
  3. 样本存储时间对模型准确性的影响:研究人员将陈皮样本在干燥箱中保存一年,定期测量太赫兹光谱数据。结果发现,随着存储时间增加,测试集分类准确率和 ROC 曲线下面积(AUC)逐渐下降,这可能是样本形态结构变化导致的。
  4. 太赫兹和拉曼光谱数据融合:为解决样本存储时间对模型的影响,研究人员引入拉曼光谱数据。数据融合有两种方法,方法 2(先分别对太赫兹和拉曼光谱数据降维,再拼接)在分类准确率和 AUC 指标上优于方法 1(直接拼接后降维),且能降低对样本存储时间的依赖。
  5. 不同类型陈皮光谱间的关系:研究人员利用曼哈顿距离、欧几里得距离等数学方法,对不同类型陈皮的光谱关系进行表征。结果显示,人工制作的陈皮和 2007 年非核心产区的陈皮,与其他陈皮差异较大。
  6. 重要特征频率的选择和数据可视化:研究人员通过 t-SNE 降维算法,对太赫兹光谱数据的相关性进行可视化。结果发现,人工制作和非核心产区的陈皮与其他陈皮差异明显,同一采摘年份的陈皮有一定重叠,证明了模型的有效性。利用 RFE 算法提取太赫兹和拉曼光谱的重要特征频率点发现,太赫兹光谱中 0.38 - 0.7THz 的 10 个特征频率点(仅占总特征频率点的 5.9%),就能达到 94.1% 的分类准确率;拉曼光谱的 10 个特征频率点分布在 14.8 - 61.5THz,模型准确率为 77.8%。

综合上述研究,研究人员利用太赫兹光谱和拉曼光谱的特殊融合处理,结合曼哈顿数据清洗算法和 SVM + PCA 模型,成功构建了一个高性能的陈皮分类模型。该模型不仅能准确鉴别不同种类的陈皮,还对样本水分变化具有更好的鲁棒性。通过 RFE 算法提取的重要特征频率点,为进一步研究影响陈皮品质的因素提供了方向。这一研究成果为中药和食品行业中陈皮的质量控制和品种鉴别,提供了一种有效且高效的分类工具。不过,研究也存在一些有待进一步探索的方面,如研究荧光效应对实验结果的影响等。但总体而言,这项研究为陈皮相关领域的发展奠定了重要基础,具有广阔的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号