基于全基因组关联研究与机器学习的草地贪夜蛾东西迁飞路径精准溯源分子标记鉴定
《Ecological Informatics》:Employing genome-wide association studies and machine learning to accurately identify Eastern and Western migratory pathways of
Spodoptera frugiperda in China via key molecular markers
【字体:
大
中
小
】
时间:2025年11月04日
来源:Ecological Informatics 7.3
编辑推荐:
本研究针对草地贪夜蛾(FAW)在中国存在东西两条迁飞路径但缺乏有效分子溯源工具的难题,通过整合基因组重测序、GWAS和机器学习技术,筛选出176个关键基因组位点,并进一步鉴定出8个稳定分子标记(6个SNPs和2个InDels)。构建的MLP模型准确率达87.50%,并发现6个UDP-糖基转移酶(UGT)基因富集于解毒相关通路。该研究为FAW迁飞路径精准溯源提供了分子工具包,对害虫监测预警具有重要意义。
在全球化与气候变化的双重背景下,外来入侵物种对全球农业安全生产构成了严峻挑战。其中,原产于美洲热带和亚热带地区的草地贪夜蛾(Fall Armyworm, FAW,Spodoptera frugiperda)以其食性杂、繁殖快、迁飞能力强的特点,自2016年入侵西非后,迅速蔓延至亚洲,并于2018年底首次在我国云南发现,此后沿东西两条主要路径(西线:缅甸-云南-贵州-四川-陕西/甘肃;东线:老挝/越南/广西-长江流域-黄淮地区-东北)向我国北方玉米主产区扩散,对我国粮食安全造成严重威胁。尽管通过探照灯诱捕、轨迹模拟等生态学方法已证实了这两条迁飞路径的存在,但一个核心科学问题尚未解决:利用东西两条路径迁飞的FAW种群是否存在遗传结构上的分化?能否利用基因组水平的分子标记精准区分其虫源迁飞路径?这一问题的解答对于实现FAW的精准溯源、区域化防控和早期预警至关重要。
为了回答上述问题,发表在《Ecological Informatics》上的这项研究,巧妙地整合了基因组学与人工智能技术,旨在开发一套能够准确鉴定FAW东西迁飞路径虫源来源的分子诊断工具。研究人员收集了从中南半岛到中国北方跨越两年(2019年和2023年)的FAW样本,通过基因组重测序(Genome Resequencing)和全基因组关联分析(Genome-Wide Association Studies, GWAS),筛选出与东西迁飞路径显著相关的关键分子标记,进而利用机器学习模型构建高精度的分类器,并对这些标记相关的基因功能进行了深入探索。
本研究主要采用了以下几种关键技术方法:首先,样本来源于2019年和2023年在中国从中南半岛(缅甸、老挝、越南)至北方多省采集的FAW个体,以及已发表的基因组数据,共96个样本。其次,对样本进行基因组重测序,通过BWA软件将测序数据比对到FAW参考基因组,使用GATK等工具进行单核苷酸多态性(SNP)和插入缺失(InDel)变异检测与质控。第三,基于样本的东西迁飞路径分组信息,利用GEMMA软件进行GWAS分析,筛选与路径分化显著相关的遗传位点(P < 1×10-5)。第四,采用LASSO(Least Absolute Shrinkage and Selection Operator)正则化逻辑回归对GWAS筛选出的位点进行特征选择,以获取最稳定的预测标记。第五,利用筛选出的关键标记,构建多种机器学习模型(包括逻辑回归、随机森林、XGBoost、支持向量机和多层感知器MLP),并在独立测试集上评估其区分东西路径虫源的性能。最后,对关键标记所在的基因进行基因本体(GO)和京都基因与基因组百科全书(KEGG)功能富集分析,以探索其潜在的生物学功能。
研究人员对2023年采集的样本以及2019年的历史样本进行了基因组重测序。经过严格的质量控制,最终保留了96个样本的高质量数据,获得了375,025,829个SNPs和127,376,554个InDels,为后续分析奠定了坚实的数据基础。
根据已有的生态学证据将所有样本划分为东、西两条迁飞路径组。GWAS分析成功识别出176个与路径分化达到基因组水平 suggestive 显著性(P < 1×10-5)的独立基因组位点,包括124个SNPs和52个InDels。这一结果为东西路径FAW存在遗传分化提供了初步的统计学证据。随后,研究人员将全部样本按3:1的比例随机划分为训练集和测试集,确保了模型评估的客观性。
基于全部变异位点的主成分分析(PCA)和系统发育树显示,东西路径样本间仅有微弱的区分度。然而,当仅使用GWAS筛选出的176个关键位点进行分析时,PCA和系统发育树均能清晰地将所有样本划分为对应于东、西路径的两个独立簇。群体遗传结构(Admixture)分析也一致地将样本分为两个纯净的组群。这些结果强有力地证实了基于这176个位点可以有效区分FAW的东西迁飞路径。
3.4. 使用LASSO正则化逻辑回归细化GWAS位点
为了从176个位点中筛选出最核心、最稳定的预测标记,研究人员应用了LASSO回归进行特征选择。通过10折交叉验证确定最优参数后,初步筛选出45个特征(35个SNPs和10个InDels)。为进一步提高模型的稳健性,又进行了1000次Bootstrap稳定性选择,最终鉴定出8个在不同抽样中 consistently 被选中的稳定特征,包括6个SNPs和2个InDels。这8个标记构成了后续机器学习建模的基础。
基于这8个稳定特征,研究人员构建了多种机器学习模型来预测FAW的迁飞路径。评估结果显示,传统的逻辑回归和支持向量机模型性能较差。而多层感知器(Multi-Layer Perceptron, MLP)模型表现最优,其精确度达到90.00%,F1分数为0.8730,准确率为87.50%,ROC曲线下面积(ROC-AUC)为89.60%,精确率-召回率曲线下面积(PR-AUC)为87.00%。随机森林和XGBoost模型也表现出相近的优秀性能。这表明MLP模型能够非常有效地区分来自东西迁飞路径的FAW样本。
对这8个稳定特征所在的基因组区域进行基因注释,共定位到46个基因。对这些候选基因进行GO和KEGG富集分析发现,它们显著富集于若干重要的生物学过程和通路。特别值得注意的是,其中包含了6个UDP-糖基转移酶(UDP-glycosyltransferase, UGT)基因。GO分析显示这些基因主要富集在UDP-糖基转移酶活性、香豆素代谢过程等条目。KEGG分析则表明它们显著富集于药物代谢-细胞色素P450、外源物代谢由细胞色素P450介导等解毒代谢相关通路。此外,还发现了3个海藻糖转运蛋白(facilitated trehalose transporter, Tret)基因,可能与昆虫应对环境胁迫(如低温、农药)有关。
该研究的结论与讨论部分高度概括了其重要发现与意义。本研究成功开发了一套结合GWAS和机器学习的分子工具,能够准确区分FAW的东西迁飞路径。所鉴定的8个稳定分子标记不仅具有强大的预测能力,其关联的基因功能(特别是UGT和Tret基因)也暗示了东西路径FAW种群可能在宿主植物适应性(东线途经主要水稻区,西线途经主要玉米区)和环境胁迫响应方面存在差异,这可能是驱动其迁飞路径分化的内在遗传基础之一。尽管FAW强大的迁飞能力导致种群间存在基因交流,使得模型准确率未能达到100%,但本研究首次在基因组水平上为FAW的东西迁飞路径分化提供了分子证据。
这项研究的意义重大。在实践层面,这8个稳定标记可用于开发低成本、快速的PCR诊断试剂盒,实现田间FAW虫源的迁飞路径快速鉴定,从而极大提升监测预警的效率和区域化防控的精准性。通路富集结果提示的东西路径种群在解毒代谢方面的潜在差异,对于制定差异化的抗药性治理策略和新型农药研发也具有指导价值。在方法论层面,该研究为解析其他迁飞性昆虫(如东方粘虫、甜菜夜蛾、稻纵卷叶螟、稻飞虱等)的迁飞路径和种群溯源提供了一种可复制的新范式。总之,该研究不仅为FAW的精准防控提供了关键技术支撑,也为从分子水平理解昆虫迁飞生态学开辟了新的道路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号