小昆虫与大数据的结合:宏基因组学在节肢动物生物多样性监测及群体遗传结构解析中的应用与展望

【字体: 时间:2025年09月18日 来源:Ecology and Evolution 2.3

编辑推荐:

  本文系统比较了宏基因组学(Metagenomics)与宏条形码技术(Metabarcoding)在复杂节肢动物混合样本(BulkDNA)物种鉴定中的性能差异,并首次利用宏基因组数据成功解析了多种昆虫的群体遗传结构(如单倍型多样性、杂合度及地理种群分化),同时挖掘出潜在的昆虫-植物互作关系。研究突显了高质量参考基因组数据库与精准生物信息过滤策略在提升物种识别准确性和挖掘群体基因组学信息中的关键作用,为生物多样性监测和保护基因组学提供了新的技术路径和洞见。

  

1 引言

马氏网(Malaise trap)作为广泛使用的昆虫采集工具,能够高效捕获包括昆虫、蜘蛛、螨类及甲壳类在内的多种节肢动物,并为其DNA的获取提供了理想材料。从这类混合样本中提取的DNA被称为BulkDNA。针对BulkDNA的物种组成解析,目前主要依赖宏条形码技术(Metabarcoding)和宏基因组学(Metagenomics)两种策略。前者通过PCR扩增特定条形码区域(如线粒体CO1基因)进行物种鉴定,具有成本低、通量高的优势,但易受扩增偏倚(amplification bias)和参考数据库完整性的影响。后者则对样本中全部DNA进行鸟枪法测序(shotgun sequencing),通过与参考基因组比对实现物种鉴定和遗传变异分析,理论上能提供更丰富的群体基因组学信息,如种群结构、基因流模式等,但其应用受限于巨大的计算资源需求及参考基因组数据库的覆盖度。

2 材料与方法

2.1 样本收集与处理

研究选取了40个来自瑞典全境的马氏网采集的节肢动物混合样本。样本经过机械匀浆和酶解消化后,提取DNA并分别进行宏条形码测序(针对CO1基因片段)和宏基因组鸟枪法测序。为评估检测准确性,在样本中人工添加了6种瑞典本地不存在的昆虫物种作为生物 spike-in 内参。

2.2 宏条形码数据的分类学分析

宏条形码序列经过剪切、去噪和嵌合体去除后,使用DADA2推断扩增子序列变体(ASVs),并通过自定义的BOLD数据库进行物种注释。采用100条条形码读长作为物种存在的阈值,并将分类信息不全的类群剔除。

2.3 宏基因组数据的分类学分析

使用Kraken2工具及三个自定义数据库(细菌/古菌、节肢动物、植物)对宏基因组数据进行分类。为减少假阳性,采用基于生物spike-in内参的样本特异性过滤阈值(即某物种的唯一最小匹配子minimisers数需不低于样本中所有spike-in物种的最低值才被视为真实存在)。

2.4 宏条形码与宏基因组数据的比较

将两种方法得到的属级分类结果进行二元化(存在/不存在)比较,重点分析了共有数据库中的171个属的重叠情况,并探讨了不同过滤阈值对结果的影响。

2.5 宏基因组数据的群体基因组学分析

选取在样本中覆盖度较高的物种(如熊蜂Bombus spp.、红木蚁杂交种Formica aquilonia × F. polyctena),将其测序读长与公共数据库中的高质量基因组进行比对,利用ANGSD等工具调用等位基因,进行主成分分析(PCA)以推断种群结构,并计算全基因组杂合度。

2.6 植物分类

利用植物数据库鉴定样本中的植物DNA,筛选与节肢动物存在已知互作关系的植物物种,构建共现热图,并与英国传粉者互作数据库(DoPI)的记录进行比对验证。

3 结果

3.1 样本收集与处理

宏条形码测序平均每个样本获得29,000条条形码读长,而宏基因组测序平均产生6800万条读长。

3.2 BulkDNA的分类学分析

宏条形码分析最终鉴定出1110个节肢动物属。宏基因组分析经过严格过滤后,保留了92个属,其中90个是瑞典本地物种。两个非本地属(BelgicaSchistocerca)的信号被归因于近缘属的参考基因组缺失导致的错误分类。平均68.77%的宏基因组读长被鉴定为节肢动物来源,2.93%被鉴定为植物来源。

3.3 宏条形码与宏基因组数据的比较

两种方法在属级检测上总体一致,但重叠程度高度依赖于过滤阈值。使用基于spike-in的严格过滤时,宏基因组仅在57.4%的情况下能复现宏条形码的检测结果;若将阈值放宽至10,000个唯一minimisers,复现率可提升至99.2%。宏条形码在检测低生物量物种方面表现出更高的灵敏度。

3.4 宏基因组数据的群体基因组学分析

研究成功从BulkDNA数据中获得了多个物种的基因组信息。对常见熊蜂(Bombus pascuorum)和缓冲尾熊蜂(B. terrestris)的分析显示,其全基因组杂合度与已发表的单个个体基因组相当,PCA分析能清晰地将其按地理来源(如瑞典 mainland 与 Gotland 岛)聚类,证实了种群遗传结构的可解析性。对红木蚁杂交复合体的分析揭示了一个介于两个亲本物种之间的遗传连续体,反映了不同程度的杂交起源。

3.5 植物分类

研究检测到多种植物DNA,并与传粉昆虫类群(如熊蜂属Bombus、蚁属Formica)存在显著的样本内共现。部分共现关系(如牛小麦属Melampyrum与食蚜蝇科Sphaerophoria)与已知的植物-传粉者互作记录一致。

4 讨论

本研究证实了宏基因组学在复杂节肢动物混合样本分析中的巨大潜力。尽管其物种检测灵敏度目前略低于宏条形码技术,且严重依赖参考基因组的数量和质量,但其优势在于能同时获取远超物种清单的群体基因组学信息。基于BulkDNA的群体遗传分析为监测种群动态、遗传多样性变化以及物种间的相互作用提供了新的视角。样本处理方式(如匀浆)虽可能引入基于生物量的偏倚,但为大规模生物多样性监测提供了可行的解决方案。

5 结论

宏基因组学方法能够有效地从节肢动物混合样本中获取物种组成和群体遗传信息。随着参考基因组数据库的不断扩大、计算工具的优化以及测序成本的下降,宏基因组学有望成为未来生物多样性监测和保护遗传学研究的核心工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号