
-
生物通官微
陪你抓住生命科技
跳动的脉搏
红外光谱结合机器学习:一种快速溯源铁皮石斛产地及预测干物质含量的创新方法
【字体: 大 中 小 】 时间:2025年07月01日 来源:LWT 6.0
编辑推荐:
本研究针对铁皮石斛(Dendrobium officinale)产地溯源和干物质含量(DMC)快速预测的需求,采用傅里叶变换近红外(FT-NIR)和衰减全反射中红外(ATR-FTIR)光谱技术,结合二维相关光谱(2DCOS)图像增强分辨率,通过偏最小二乘判别分析(PLS-DA)实现100%准确率的产地鉴别,并利用长短期记忆(LSTM)回归模型(R2p=0.8026)完成DMC预测。该研究为中药材质量评估提供了高效、无损的分析新策略。
铁皮石斛作为一种兼具药用和食用价值的传统中药材,素有"九大仙草之首"的美誉,其品质与产地密切相关。然而,野生资源稀缺导致人工栽培兴起,不同产地的铁皮石斛因气候环境差异导致化学成分(如多糖、黄酮等)含量波动,直接影响其药理活性和市场价格。传统检测方法如稳定同位素分析虽可靠但耗时,而光谱技术因其快速、无损的特点成为研究热点,但现有研究对数据处理方法的系统比较仍显不足。
针对这一科学问题,来自云南省农业科学院等机构的研究人员开展了一项创新性研究,通过结合红外光谱与机器学习算法,建立了铁皮石斛产地鉴别和干物质含量预测的高效模型。这项发表于《LWT》的研究,为中药材质量控制提供了新的技术路径。
研究团队首先采集了5个省份7个产地的278份铁皮石斛样本,测定其干物质含量(DMC)并获取FT-NIR(10000-4000 cm-1)和ATR-FTIR(4000-400 cm-1)光谱数据。通过多元散射校正(MSC)、标准正态变量变换(SNV)和二阶导数(SD)等预处理方法优化数据质量,并创新性地引入二维相关光谱(2DCOS)技术提升谱图分辨率。在建模环节,采用偏最小二乘判别分析(PLS-DA)进行产地溯源,同时比较了偏最小二乘回归(PLSR)和长短期记忆(LSTM)神经网络在DMC预测中的性能。
3.1 干物质含量的地理差异
研究发现不同产地铁皮石斛的DMC存在显著差异(p < 0.05),福建产地DMC最低(18.87-31.15%),而云南产地的离散度最大(范围达51.97%),这种差异为基于光谱的产地鉴别提供了物质基础。
3.2 光谱特征解析
通过"三步红外分析法"(原始光谱-SD谱-2DCOS图像)系统比较发现:FT-NIR在6911 cm-1(O-H伸缩)和5180 cm-1(O-H变形)等处的吸收峰差异显著;ATR-FTIR则在3345 cm-1(-OH)和1004 cm-1(糖苷构型)呈现特征峰。2DCOS图像进一步揭示,福建样品在9917-8288 cm-1区间的独特吸收模式可能是其DMC显著低于其他产地的光谱标志。
3.3 产地溯源模型
基于原始FT-NIR光谱建立的PLS-DA模型表现出色,潜在变量(LVs)为16时测试集准确率达100%,而ATR-FTIR模型准确率为96.47%。通过200次置换验证证实模型无过拟合风险(Q2截距<0.05),为快速产地鉴别提供了可靠工具。
3.4 干物质含量预测
在DMC预测中,SD预处理结合LSTM模型的FT-NIR数据表现最优(R2p=0.8026,RPD=1.9149),而PLSR模型虽RPD较高(2.1387)但存在过拟合风险(RMSEC/RMSEP=1.4830)。特征选择方面,区间偏最小二乘(iPLS)优于竞争性自适应重加权采样(CARS),因其保留的连续波段(如7460-6865 cm-1)包含更多与多糖相关的O-H、C-H键振动信息。数据融合策略中,中级融合(SNV+SD-iPLS-LSTM)取得最佳平衡(R2p=0.7845)。
3.5 气候因素关联
通过WorldClim生物气候变量分析发现,DMC与最湿季度平均温度(bio8)、年降水量(bio12)呈正相关,而与年平均温度(bio1)、最热月最高温(bio5)等呈负相关。PLSR模型(VIP>1)显示最暖季度降水(bio18)是促进DMC积累的关键正调控因子。
这项研究创新性地建立了铁皮石斛分析的"三步红外光谱法",证实FT-NIR在反映多糖相关化学键(C-H、O-H)方面更具优势。所开发的SD-LSTM模型虽然仅实现DMC的初步预测(R2p<0.9),但为后续特定活性成分的精准预测奠定了基础。研究者建议未来可整合拉曼光谱等多源分析技术,并探索更先进的深度学习模型。该成果不仅为铁皮石斛质量控制提供了新范式,其"光谱-机器学习"的研究框架也可拓展至其他药用植物的品质评估,对推动中药材标准化具有重要意义。
生物通微信公众号
知名企业招聘