一种利用衰减全反射-傅里叶变换红外(ATR-FTIR)光谱结合化学计量分析和卷积神经网络(CNN)快速区分灵芝属物种的方法
《Frontiers in Chemistry》:A rapid approach for discriminating Ganoderma species using attenuated total reflectance–Fourier transform infrared (ATR-FTIR) spectroscopy integrated with chemometric analysis and convolutional neural network (CNN)
【字体:
大
中
小
】
时间:2025年10月27日
来源:Frontiers in Chemistry 4.2
编辑推荐:
灵芝属物种鉴定中,采用ATR-FTIR光谱结合正交偏最小二乘判别分析(OPLS-DA)和卷积神经网络(CNN)的综合方法,成功实现了G. lucidum、G. sinense和G. tsugae的区分。OPLS-DA模型准确率达98.61%,敏感性97.92%,特异性98.96%,RMSEE/RMSEP/RMSECV均小于0.3,验证了其可靠性。CNN模型在数据增强后表现稳定,10次随机分割测试平均准确率89.84%,敏感度84.75%,特异度92.38%,精度0.87±0.02,召回率0.85±0.03,F1值0.86±0.03,变异系数均低于5%。两种方法结合为药用真菌提供了高效非破坏性鉴定方案,未来可扩展至其他草药鉴定。
本研究旨在解决灵芝属(*Ganoderma*)物种的掺假和误分类问题。灵芝是一种传统的药用真菌,属于灵芝科,广泛应用于中国及亚洲地区的传统医学中。其历史可追溯至《神农本草经》(约公元前100年),并在众多古籍中被提及。如今,灵芝已能够大规模人工栽培,用于研究和药用目的。尽管已有超过20种灵芝属物种被研究,但其中*Ganoderma lucidum*(红灵芝)是最常被研究的,而*Ganoderma sinense*(紫灵芝)在中国也具有重要地位。自2001年以来,*Ganoderma tsugae*(日本灵芝)已被批准用于健康产品,这三种灵芝属物种也被中国政府列为可用于健康食品的合法原料。
灵芝的健康效益主要归因于其活性成分,如三萜类化合物和多糖。三萜类化合物具有显著的药理作用,包括抗肿瘤、保肝、抗血管生成和抗组胺等;而多糖则有助于增强免疫功能。在实际应用中,灵芝提取物被广泛用作健康食品,如饮料、咖啡粉、补充剂和糖浆等。然而,由于灵芝具有较高的经济价值,市场上出现了对灵芝的掺假行为,影响了灵芝产品的真伪性。这种掺假行为也受到其多样化的功能特性推动,进一步加剧了对灵芝产品安全性的担忧,以及对监管机构和消费者信任的挑战。
为确保灵芝属物种的准确分类,研究者们采用了一系列的鉴别方法,如DNA条形码、高效液相色谱(HPLC)、薄层色谱(TLC)和毛细管电泳。然而,这些方法在本研究中并未被采用,因为它们通常需要复杂的样品预处理和较长的分析时间,这不符合制药行业和监管机构在大规模中药材鉴别的效率需求。因此,研究者们转向了快速、简便且非破坏性的光谱分析方法,如衰减全反射-傅里叶变换红外光谱(ATR-FTIR)、近红外光谱(NIR)和拉曼光谱。这些光谱方法在样品预处理方面要求较低,能够提供清晰的分子指纹,从而实现对中药材的准确识别。
ATR-FTIR光谱分析是一种快速、非破坏性且成本效益高的技术,可以捕捉样品中的分子振动信息,且样品预处理需求较低。为了解读其复杂的光谱数据,通常采用化学计量学方法,如主成分分析(PCA)、PCA-分类和正交偏最小二乘判别分析(OPLS-DA),以降低数据维度、识别模式并区分不同组别。近年来,卷积神经网络(CNN)作为一种新兴的深度学习方法,因其能够自动从数据中学习特征,无需人工提取,因此在中药材识别中展现出巨大潜力。虽然化学计量学模型仍然具有强大的分析能力,但CNN在处理大规模和复杂数据时具有更好的扩展性和适应性,使其成为一种有价值的互补工具。
在本研究之前,已有研究利用ATR-FTIR光谱结合化学计量学方法对灵芝属物种进行区分。然而,这些研究并未引入深度学习方法,因此未能充分发挥数据驱动分类的优势。考虑到这些已有研究,本研究在传统方法的基础上进行了拓展,引入了CNN,以进一步提升灵芝属物种的分类能力。在近期的文献中,CNN已被广泛应用于农作物病害识别、植物表型分析和植物物种分类等任务。然而,关于CNN在灵芝属物种分类方面的研究仍较为有限,尤其是在数据量和样本分布方面。因此,本研究尝试将CNN与化学计量学方法结合,以提高灵芝属物种的识别效果。
本研究使用了118个灵芝属样品,这些样品由福建中医药大学提供。样品包括三种不同的灵芝属物种:*G. lucidum*(红芝)、*G. sinense*(紫芝)和*G. tsugae*(日本芝)。其中,红芝有78个样本,紫芝和日本芝各20个样本。这些样品来源于中国,采集后在50℃下烘干8至9小时,随后被研磨成细粉,并通过200目不锈钢筛进行筛选,最后在8℃下储存以备实验使用。在进行ATR-FTIR分析之前,样品会再次在50℃下加热1小时,以确保其处于最佳状态。
ATR-FTIR光谱数据的采集和处理过程是本研究的关键环节。研究使用了一台Spectrum Two?傅里叶变换红外光谱仪(PerkinElmer,美国),并配备了Universal Attenuated Total Reflectance(UATR)附件。为了确保光谱数据的一致性,所有样品都会被放置在UATR晶体表面,以均匀接触。实验环境为温湿度受控的房间,以减少外部因素对光谱测量的影响。采集的光谱数据以36次扫描的方式记录,波长范围为4,000至400 cm?1,分辨率为4 cm?1,间隔为1 cm?1,以提高信噪比和光谱分辨率。数据的分析使用了Spectrum 10.5.3软件(PerkinElmer,美国)。
为了提高ATR-FTIR光谱数据的可解释性,研究进行了ATR校正,对测量的光谱数据进行数学处理,以补偿红外辐射的衰减。此外,对光谱基线进行了校正,并进行了平滑处理以减少噪声。通过将基线校正和光谱平滑后的数据进行算术运算,包括减法处理和归一化,进一步提高了数据的准确性。
在本研究中,采用了多种数据处理和分析方法,包括化学计量学分析和CNN模型。化学计量学分析采用了无监督的PCA方法,以及有监督的PCA-分类和OPLS-DA方法。通过PCA方法,研究者能够观察到不同灵芝属物种之间的光谱差异。PCA-分类和OPLS-DA方法则用于进一步区分和分类。为了评估模型的性能,所有样本被随机分为两组:一组用于校准,另一组用于验证。校准组包含三种灵芝属物种光谱数据的60%,验证组则包含剩余的40%。内部验证通过排列测试(permutation test)进行,共进行了100次排列,以确保模型的可靠性和稳定性。化学计量学分析使用了SIMCA 14.1软件(Umetrics,瑞典)进行处理。通过计算准确率、灵敏度和特异性等指标,评估了模型的性能。
在CNN模型的构建过程中,研究者面临的一个主要挑战是样本数量不足。尽管总共有118个样本,但样本分布不均,尤其是紫芝和日本芝的样本数量较少,导致模型训练过程中可能产生类别不平衡的问题。类别不平衡可能导致模型对少数类别的识别能力较差,从而影响整体的分类效果。因此,研究引入了数据增强技术,特别是合成少数过采样技术(SMOTE),以解决样本分布不均的问题。SMOTE通过比较少数类别的样本与邻近样本,生成新的合成样本,从而提高模型的泛化能力。
在数据增强过程中,原始数据集被分为两组,分别用于训练和测试。每组中,每个类别的样本数量尽可能相等,以确保数据的平衡性。随后,SMOTE被应用于每组数据,以生成更多的样本,最终将样本数量提升至500个。通过数据增强,研究者成功地改善了样本分布,为CNN模型的训练提供了更均衡的数据支持。
在CNN模型的训练和测试阶段,研究者采用了10折交叉验证方法,以优化超参数并提高模型的泛化能力。在训练过程中,通过绘制学习曲线,研究者可以观察到模型的训练损失和验证损失的变化趋势。学习曲线的绘制有助于识别模型是否出现过拟合或欠拟合问题。在本研究中,学习曲线显示训练损失和验证损失在多个训练阶段逐渐收敛,并在接近相同值时趋于稳定,表明模型能够准确预测样品,而不会出现过拟合现象。
为了评估CNN模型的鲁棒性,研究进行了随机分割测试。随机分割测试通过多次重复实验,观察模型在不同数据分割下的准确率、灵敏度和特异性波动情况。一个稳健且可靠的CNN模型应当在多次随机分割测试中表现出一致和稳定的性能,而不会出现较大的统计波动。研究结果显示,在未进行数据增强的原始数据集中,紫芝和日本芝的准确率、灵敏度和特异性波动较大,而在进行数据增强后的样本中,这些波动显著减小。这进一步验证了数据增强在提升CNN模型鲁棒性方面的重要性。
此外,研究者还通过多类混淆矩阵评估了CNN模型在随机分割测试中的性能。多类混淆矩阵能够提供关于模型分类准确性的详细信息,包括正确预测和误分类的情况。从混淆矩阵的行中可以获取预测值,从列中可以获取真实值。通过分析10次随机分割测试的混淆矩阵,研究者发现红芝的分类效果优于紫芝和日本芝,同时大多数误分类的红芝样本属于日本芝,而大多数误分类的紫芝和日本芝样本则属于红芝。这表明在数据增强之前,样本分布不均严重影响了模型的分类性能。
从整体结果来看,CNN模型在10次随机分割测试中的准确率为89.84% ± 1.96%,灵敏率为84.75% ± 2.95%,特异率为92.38% ± 1.47%。此外,模型的精确率为0.87 ± 0.02,召回率为0.85 ± 0.03,F1得分为0.86 ± 0.03。F1得分是精确率和召回率的调和平均值,数值越接近1,表示模型在分类任务中的表现越好。同时,模型的性能指标在10次随机分割测试中的变异系数(CV)较低,表明其在不同测试中的表现具有较高的稳定性。虽然CNN模型在准确率、灵敏率和特异性方面略逊于化学计量学方法,但其在处理大规模和复杂数据时展现出更好的扩展性和适应性。
化学计量学方法和CNN方法各有优劣。化学计量学方法在数据可解释性方面具有优势,能够提供清晰的模式识别和数据关系分析。相比之下,CNN方法由于其复杂的内部机制,输出结果较为难以理解。化学计量学方法通常适用于小规模和结构相对简单的数据集,但在处理大规模、非线性和复杂数据时可能面临一定的局限性。CNN方法则适用于高维和复杂的数据结构,其分层架构能够在训练过程中自动提取关键特征,从而构建一个稳健的模型。此外,CNN方法的引入为模型提供了自动化特征提取的能力,减少了对光谱预处理的依赖。虽然CNN模型在分类性能上略逊于化学计量学方法,但其在扩展性和适应性方面的优势表明,CNN可以作为识别灵芝属物种的重要工具。
本研究的最终结论是,结合化学计量学分析和CNN模型的方法在灵芝属物种的分类中具有显著优势。化学计量学方法能够提供清晰的模式识别和分类效果,而CNN方法则能够处理大规模和复杂数据,提高模型的泛化能力。这种结合不仅提升了灵芝属物种分类的准确性,还为中药材的鉴定提供了新的思路。未来,该方法有望应用于其他中药材的鉴别,为中药材的标准化和质量控制提供技术支持。此外,研究者计划开发一个公开的鉴定平台,以支持研究、产业和监管应用。尽管本研究已经验证了该方法的可行性,但为了进一步提升其在中药材鉴别的效果,仍需在其他中药材的分类中进行验证和优化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号