利用机器学习的傅里叶变换红外光谱技术(FTIR spectroscopy)来区分当前气候条件下Gentiana rigescens(一种植物)的栖息地特征
《Microchemical Journal》:Machine learning-enabled FTIR spectroscopy for discriminating
Gentiana rigescens habitat characteristics under current climate
【字体:
大
中
小
】
时间:2026年02月08日
来源:Microchemical Journal 5.1
编辑推荐:
采用傅里叶变换红外光谱(FTIR)结合机器学习方法建立甘菊(Gentiana rigescens)产地与部位鉴别模型,通过二阶导数预处理和二维相关光谱(2DCOS)增强特征提取,ResNet、SVM模型均实现100%分类准确率,环境因子分析显示温度季节性和海拔对生长环境影响显著,MaxEnt模型揭示滇黔高原及横断山区为适宜产区。
何刚|沈涛|王远中
云南省农业科学院药用植物研究所,昆明650200,中国
摘要
Gentiana rigescens Franch. ex Hemsl.(G. rigescens)是中国著名的药用植物,但受到环境变化和人类活动的影响,不同产地的G. rigescens质量存在差异,这引发了消费者的担忧。因此,本研究采用傅里叶变换红外光谱(FTIR)结合机器学习方法,构建了一种快速、准确且全面的方法,用于精确分类和鉴定G. rigescens的产地和部位。结果表明,平均日变化范围、温度季节性和海拔高度是影响G. rigescens生长环境的显著因素。在使用FTIR光谱鉴定G. rigescens的产地和部位时,应用适当的预处理(二次导数,SD)和特征提取(交叉)可以有效提升模型性能。将经过SD预处理的FTIR光谱数据转换为二维相关(2DCOS)图像后,残差卷积神经网络(ResNet)能够准确识别G. rigescens的产地和部位。训练集、测试集和外部验证集的分类准确率均达到100.00%,且没有过拟合的风险。最大熵(MaxEnt)模型的预测结果显示,适合该物种生长的栖息地主要分布在云南-贵州高原和云南西北部的横断山区。温度变化较小且降水量充足的条件下,有利于G. rigescens中活性成分的积累。本研究可为G. rigescens的科学栽培、质量评估和资源保护提供参考。
引言
在全球变暖的影响下,山区作物的适宜栖息地倾向于向更高海拔迁移[1]。众所周知,药用植物的生长环境对其质量有较高要求。许多高价值药用植物已经面临质量下降、产量减少甚至濒临灭绝的风险[2],[3]。随着社会对健康概念的重视,对药用植物的需求不断上升,同时也出现了过度挖掘野生资源的不利现象。同时,受环境变化和人类活动的影响,适合野生药用植物生长的区域越来越少。对于因环境压力而迁移的物种,其质量难以确定[4]。因此,在鉴定来自不同产地的药用植物时,考虑环境因素的影响逐渐成为评估药用植物质量的新方法[2],[5]。
Gentiana rigescens Franch. ex Hemsl.(G. rigescens)是中国西南部的重要药用植物之一。云南省被认为是其优质生产基地,中文中称为“道地”产区[6]。G. rigescens含有环烯醚萜、黄酮类和黄酮等化学物质,常用于治疗慢性咽炎、关节炎、湿热、黄疸、湿疹等疾病,并用于开发相关药物[7]。在气候变化加剧的背景下,作为自然产物,G. rigescens在不同生长环境中的活性成分存在显著差异。因此,其产地的“道地性”问题引起了研究人员和消费者的广泛关注[8],[9]。据报道,G. rigescens在市场上以粉末和切片的形式流通,仅凭外观和味道进行鉴定是不现实的[10]。在鉴定G. rigescens的部位、种类和“道地性”真伪时,传统色谱方法常用于检测质量指标,研究主要集中在化学成分与药理活性之间的相互关系[11],[12],[13]。然而,对于药用植物的快速现场检测和大批量样品的质量分析,色谱方法程序繁琐复杂,效果不佳。此外,传统色谱方法主要关注某些化学成分的含量作为质量评价指标,而药用植物的质量遵循整体原则,即其质量不由单一或某一类生物活性成分决定,而是由整体化学组成决定[14],[15]。因此,仅依赖色谱方法越来越难以满足市场需求。
近年来,依靠WorldClim、国家地球系统科学数据中心和资源与环境科学数据中心等大规模环境和生态数据平台,并结合机器学习方法分析影响药用植物分布的生态因素及其地理分布模式,逐渐成为一种趋势[2],[16],[17]。先前的研究表明,生产区域直接影响G. rigescens中生物活性化合物的积累,而气候通过温度和降水量等因素改变栖息地的适宜性,从而间接影响其质量。此外,适宜度较高的栖息地更有利于优质G. rigescens>的栽培[18]。G. rigescens>根部的gentiopicroside含量与纬度呈显著负相关,低纬度地区的种群根部主要活性成分含量较高。海拔高度对地上部分的代谢物含量影响更大。此外,根部gentiopicroside含量与年平均温度(MAT)和年平均降水量(MAP)呈显著正相关[19]。研究还发现G. rigescens>中环烯醚萜化合物的含量与环境因素之间存在相关性,表明高海拔和高降水量不利于这些环烯醚萜的积累[20]。近年来,研究人员常使用光谱方法表征和分析药用植物的整体化学信息,并探讨环境变化对药用植物整体化学信息的影响[21]。通过环境变量与Gastrodia elata f. glauca干物质含量之间的相关性分析,一些研究发现降水、海拔、温度和土壤等环境因素可能是地理标志产区质量较好的原因。傅里叶变换红外光谱(FTIR)结合机器学习方法成功区分了地理标志产区和其他产区[22]。此前,也有研究通过傅里叶变换近红外光谱(FT-NIR)表征了不同适宜栖息地中Lanxangia tsao-ko的差异。整体化学信息的光谱信号强度在适宜度较高的栖息地、中等适宜度和适宜度较低的栖息地中呈下降趋势[5]。Li等人[23]对Gastrodia elata中gastrodin相关的ATR-FTIR光谱特征变量与环境变量矩阵进行了Mantel相关性分析,结果显示环境变量Prec 09(9月的平均降水量)对Gastrodia elata的栽培和gastrodin的产生有较大影响。在药用植物光谱指纹研究中,二维相关光谱(2DCOS)图像使光谱信号更加直观,提高了原始光谱的分辨率,提高了药用植物鉴定的准确性[24]。通常,通过将2DCOS图像与图像识别方法结合,可以构建具有良好分类性能和泛化能力的模型,这些模型已广泛应用于药用植物、香料和可食用真菌的鉴定研究[25],[26],[27]。
基于现有的研究和理论框架,本研究深入探讨了云南省和贵州省之间的环境差异。通过偏最小二乘判别分析(PLS-DA),详细分析了这两个生产区域在当前气候条件下的环境因素数据集。这种方法不仅能够细致地探索环境差异,还有助于识别导致区域环境异质性的关键变量,为更有针对性和基于信息的分析铺平了道路。随后,使用FTIR和2DCOS图像对来自30个生产区域的G. rigescens>样品进行了表征和分析。PLS-DA模型用于筛选最佳预处理方法,以建立考虑生产区域和植物部位的判别方法。支持向量机(SVM)用于数据层面的分类模型构建,而残差卷积神经网络(ResNet)模型用于图像层面的分类模型构建。根据这些模型的分类结果,确定了区分不同样品的FTIR光谱指纹区域。最后,使用最大熵模型(MaxEnt)构建了该物种适宜栖息地分布的预测模型,以验证环境变量的合理性。随后,对这些环境变量与FTIR光谱指纹区域的光谱强度进行了Spearman相关性分析,进一步探讨了环境变量对G. rigescens>整体化学信息的影响。本研究的目的是建立一种快速、准确且合理的综合评估方法,为G. rigescens的质量评估和科学栽培提供有力支持。
样本预处理
本研究从云南省(16个生产区域)和贵州省(14个生产区域)收集了300株野生G. rigescens>植物,所有植物均为3年生。详细信息见表S1和图1。所有样品均由云南省农业科学院药用植物研究所的王远中研究员鉴定。首先,用自来水彻底冲洗植物,并用刷子清除沉积物
FTIR光谱分析
FTIR光谱作为一种快速、准确且无损的方法,有助于表征样品的整体变异性,特别是有机分子中功能基团所表现出的特定伸缩振动[42]。通过观察图2可以发现,G. rigescens的FTIR光谱振动信息主要出现在3700–3000?cm?1、3000–2800?cm?1和1750–400?cm?1范围内
讨论
云南省和贵州省是生物多样性热点研究区域,具有适合药用植物生长的独特气候环境[52]。本研究重点关注云南省和贵州省两个G. rigescens>生产区域之间的环境差异,这有助于分析导致G. rigescens>整体化学信息差异的环境因素
结论
本研究从环境变异性的角度出发,综合分析了环境变量对G. rigescens>的影响,并构建了一个考虑产地和部位的快速鉴定模型。在当前云南省和贵州省的气候条件下,适宜度中等到较高的栖息地主要分布在云南-贵州高原和云南西北部的横断山区
CRediT作者贡献声明
何刚:写作 – 审稿与编辑、软件、方法论、数据管理。沈涛:写作 – 审稿与编辑、项目管理、资金获取。王远中:写作 – 审稿与编辑、初稿撰写、软件、资源管理、资金获取。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(编号32360094)和云南省本科院校特色基础合作研究项目(编号202301BA070001–100)的资助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号