基于混合机器学习算法与空间预测优化Salvia leriifolia种植区以最大化生物活性化合物产量

【字体: 时间:2025年09月29日 来源:Smart Agricultural Technology 5.7

编辑推荐:

  本研究针对如何精准预测药用植物Salvia leriifolia的高产活性成分区域,结合GIS与机器学习(RF、BRT、SVM及其混合模型),通过23种环境因子分析,识别出黏土含量、土地利用和电导率(EC)为关键影响因素,并以RF-BRT模型(RMSE=0.011,MAE=0.007)实现最优预测,为可持续栽培及药物开发提供新方案。

  
在全球药用植物市场迅速扩张的背景下,如何高效、可持续地生产高活性成分的药用植物已成为科学研究与农业实践的重要议题。尤其是像Salvia leriifolia这样的伊朗特有种,其根部所含的abietatriene(松香三烯)具有抗炎、抗菌和抗肿瘤等多种生物活性,极具开发潜力。然而,传统的种植方法往往依赖经验,缺乏科学指导,导致活性成分产量不稳定,种植区域选择不当还可能加剧生态破坏。因此,利用先进技术精准预测最佳种植区,实现优质高产,变得尤为迫切。
为此,研究人员开展了一项整合多学科方法的研究,旨在通过机器学习与空间分析技术,优化Salvia leriifolia的种植区域,以最大化abietatriene的产量。该研究论文已发表在《Smart Agricultural Technology》上。
为开展研究,作者主要运用了以下几种关键技术方法:首先,通过野外采样获取51个样点的植物根样本及地理位置信息,并利用气相色谱-质谱联用(GC-MS)技术分析其abietatriene含量;其次,收集了23种环境变量(包括地形、土壤属性、气候条件和土地利用等),借助地理信息系统(GIS)进行空间化处理;然后,采用随机森林(RF)、提升回归树(BRT)和支持向量机(SVM)等机器学习算法及其混合模型(如RF-BRT、SVM-RF等)进行空间预测;最后,通过变量重要性分析(使用Bagged CART)、多重共线性检验(VIF和Tolerance)以及误差评估(RMSE和MAE)验证模型性能。
研究结果部分主要包括以下内容:
3.1. 评估多重共线性和特征交互效应
分析显示所有23个环境变量的方差膨胀因子(VIF)均小于5,容忍度大于0.1,表明变量间无严重多重共线性。通过递归特征消除与交叉验证(RFECV)进一步验证了这些变量对模型预测的贡献。
3.2. 评估变量贡献
利用Bagged CART算法评估各环境因子对abietatriene含量的影响,发现黏土含量(FR=6.70)、土地利用(FR=6.25)和电导率(EC,FR=5.41)是最重要的影响因素。具体而言,黏土含量在11.76%-14.98%时最有利于abietatriene积累,而灌木林地(shrub land)和中等盐度条件(EC介于3.96-7.55 ds/m)也能显著促进该成分的生成。
3.3. 使用机器学习预测S. leriifolia种植
研究对比了多种单一及混合机器学习模型的预测性能。其中,RF-BRT混合模型表现最佳,其均方根误差(RMSE)和平均绝对误差(MAE)分别为0.011和0.007,显著优于其他模型。空间适宜性绘图显示,Razavi Khorasan省北部和西北部地区是种植S. leriifolia并获取高abietatriene产量的最优区域。
3.3.4. 预测不确定性
通过计算预测标准差和95%预测区间,评估了模型的空间不确定性。RF-BRT模型不仅预测精度最高,且不确定性最低(平均标准差为0.068),表现出良好的稳定性和可靠性。
研究结论与讨论部分强调,该研究通过集成机器学习与空间分析,成功识别出影响S. leriifolia活性成分积累的关键环境因子,并开发出高效预测模型。这一方法不仅有助于指导该植物的精准栽培,提高abietatriene产量,还为其他药用植物的可持续利用提供了可推广的框架。此外,研究结果对保护生物多样性、支持农业决策以及促进药物研发具有重要实践意义。未来研究可进一步探讨环境因子影响次生代谢物合成的生理机制,并将该模型拓展到其他物种和地区。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号