深海生物多样性的组学探索:“Pourquoi Pas les Abysses?”与eDNAbyss项目数据集
《Scientific Data》:Omics exploration of deep-sea biodiversity: data from the “Pourquoi Pas les Abysses?” and eDNAbyss projects
【字体:
大
中
小
】
时间:2025年12月21日
来源:Scientific Data 6.9
编辑推荐:
【编辑推荐】深海作为地球最大生物群系,其生物多样性认知仍存巨大空白。为克服传统形态学调查局限,本研究通过“Pourquoi Pas les Abysses?”和eDNAbyss项目,建立了从标准化采样到生物信息分析的FAIR原则流程,生成了涵盖宏基因组学、宏条形码技术(COI/16S/18S rRNA)和杂交捕获技术(CBH)的大规模数据集。该资源为全球深海底栖生物多样性评估提供了可互操作的数据基础,对揭示生物地球化学循环机制及应对深海人类活动影响具有重要意义。
浩瀚的深海海底覆盖了地球表面一半以上的面积,然而这片广袤的区域仍然是地球上探索最少的生境之一。由于采样困难、形态鉴定工作量大以及各地研究结果难以整合等因素,我们对深海生物多样性的整体认知非常有限。传统的基于形态学的研究虽然揭示了深海局部区域的高多样性,但难以在全局尺度上评估其分布格局和驱动因素。此外,深海在全球生物地球化学循环中扮演着关键角色,却面临着日益增加的人类活动压力(如深海采矿)。因此,采用标准化、可扩展的方法来全面评估深海生物多样性变得至关重要。
近年来,环境DNA(eDNA)和高通量测序技术的结合为大规模生物多样性调查提供了革命性的工具。然而,不同研究采用的采样和分子协议各异,阻碍了全球尺度数据的整合与比较。为了解决这一问题,由法国海洋开发研究院(Ifremer)主导的“Pourquoi Pas les Abysses?”项目及其后续的eDNAbyss项目应运而生,旨在建立一套从野外采样到生物信息学分析的标准化、可重复的组学工作流程,以期最终实现对深海生命之树的全球性评估。相关研究成果已发表于《Scientific Data》期刊。
本研究的数据生成涉及几个关键的技术方法。研究人员在全球范围内多个深度(包括深渊和超深渊带)采集了沉积物、硬基质和海水样本。对于沉积物,主要使用多管取样器(Multicorer)和推管取样器获取岩心,并进行垂直分层切片(如0-1 cm, 1-3 cm等)。对于硬基质,使用了特制的定量取样器ELFES。对于水体,则使用了大型容积泵SALSA以及小型无菌采样箱或岩心上清液。核酸提取方面,沉积物样本主要使用PowerMax Soil DNA Isolation Kit从约10克沉积物中提取DNA。水体样本则通过研磨滤膜并联合提取DNA和RNA。测序策略包括:(1)宏基因组测序(Illumina NovaSeq 6000),用于评估整体遗传物质;(2)宏条形码测序,针对多个标记基因,包括针对真核生物(特别是后生动物)的COI基因、针对真核生物(包括原生生物)的18S rRNA基因的V1V2、V4、V9高变区,以及针对原核生物的16S rRNA基因的V4V5区;(3)杂交捕获(CBH)技术,用于富集16S、18S rRNA和COI基因的全长序列,以更好地探测稀有类群和新分类单元。所有产生的数据均按照FAIR(可发现、可访问、可互操作、可重用)原则存储在欧洲核苷酸档案库(ENA)和Zenodo等公共数据库中。
研究采用标准化采样策略以确保数据的可比性。沉积物样本主要通过多管取样器获取,并将岩心按深度分层切片(如0-1 cm, 1-3 cm等),以研究生物群落的垂直分布。同时,项目开发了ELFES采样器用于硬基质生物的定量采样。水体样本则通过大容量SALSA泵(针对后生动物)和小型采样箱或岩心上清液(针对微生物和真核生物)收集,旨在探索水体环境DNA在反映底栖多样性方面的潜力。每个采样事件均记录了详细的元数据(如坐标、深度、巡航信息等),并与来自SHOM世界沉积物图和Bio-ORACLE等数据库的环境变量相关联。
经过测试比较,项目最终选择使用PowerMax Soil DNA Isolation Kit从约10克沉积物中提取DNA,以获得更全面的生物多样性普查,特别是对于真核生物。水体样本的滤膜则经过研磨后联合提取DNA和RNA。提取的DNA经过严格的质控(如Qubit定量、Bioanalyzer分析),并分装为“工作”和“生物样本库” aliquots以备后续使用。
文库构建使用NEBNext? Ultra II DNA Library Prep Kit for Illumina,通常输入12.5 ng gDNA。文库经过质量检查(Bioanalyzer, qPCR)后,在Illumina NovaSeq 6000平台上进行151 bp双端测序,平均每个样本获得约1.45亿条有用读长。测序数据经过包括去除接头、低质量末端修剪、去除PhiX基因组污染等在内的严格质量控制。
项目针对5个标记基因(COI, 18S V1V2, 18S V4, 18S V9, 16S V4V5)进行扩增子测序。采用了两种策略:2020年前使用无BID(Barcode Identifier)引物,之后使用带8核苷酸BID的引物以降低成本和处理时间。PCR产物纯化后构建文库,并在HiSeq 4000/2500(无BID)或NovaSeq 6000(BID)平台上测序。为提高低复杂度文库(因引物序列导致)的测序质量,降低了上样浓度并增加了PhiX spike-in。
CBH技术用于富集16S、18S rRNA和COI基因的全长序列。首先设计了针对这些基因的退化探针。然后通过体外转录合成生物素化的RNA探针。将构建好的测序文库与探针混合物杂交,使用链霉亲和素磁珠捕获杂交复合物,经过洗脱和扩增后(有时进行两轮捕获以提高富集效率),在Illumina MiSeq平台上进行测序。该方法旨在无偏倚地获取更完整的基因序列,用于系统发育分析。
- 1.宏条形码数据分析:采用灵活的流程,包括使用DADA2进行误差校正和扩增子序列变异(ASV)生成,使用decontam包去污染,以及可选的Swarm聚类和MUMU算法后聚类 curation 以生成操作分类单元(OTU)。强调共享ASV表以便于未来研究的数据整合。
- 2.宏基因组数据分析:使用包含标准宏基因组工具和Anvi'o平台的snakemake流程进行质量过滤、组装、基因预测、分类和功能注释、binning(如CONCOCT, Metabat2)以获取宏基因组组装基因组(MAG),并评估其完整度和冗余度。
- 3.CBH数据分析:对于16S/18S rRNA基因CBH数据,使用RiboTaxa等流程,包括质量评估、接头去除、SSU rRNA读长过滤(SortMeRNA),并通过MetaRib和EMIRGE等参考引导的组装器重建全长SSU rRNA序列,随后进行丰度估计和分类学分配(QIIME2)。也使用Kraken2直接对读长进行分类以评估全部捕获的多样性。对于COI基因CBH数据,则采用de novo组装(IDBA-UD, CAP3)和tBLASTx比对(针对MIDORI COI数据库)来鉴定COI contigs。
所有样本的基本元数据已在BioSamples注册并公开。完整的样本登记表及其元数据字段描述可在Zenodo获取。所有测序数据文件(fastq.gz格式)已存放于欧洲核苷价档案库(ENA)的eDNAbyss总项目(PRJEB39225)下,并包含多个嵌套的子项目,分别对应不同类型的测序数据(如宏条形码、宏基因组、CBH等)。
本研究通过“Pourquoi Pas les Abysses?”和eDNAbyss项目,成功构建并发布了一个大规模、标准化的深海生物多样性组学数据集。该数据集整合了宏基因组、宏条形码(覆盖生命之树多个界)和杂交捕获数据,并附有详细的样本元数据和环境参数。研究所建立并验证的从采样到生物信息分析的完整、标准化流程,确保了数据的可重复性和可互操作性。
这项工作的重要意义在于:首先,它为解决深海生物多样性评估中的标准化难题提供了切实可行的方案,推动了该领域向数据驱动、大尺度整合研究范式的转变。其次,产生的高质量、FAIR化数据集本身即为国际社会提供了宝贵的资源,可用于探究深海生物的分类学组成、地理分布模式、群落构建机制及其与环境因子的关系。第三,所开发的创新技术(如ELFES硬基质采样器、SALSA大体积水泵、优化的杂交捕获流程和生物信息学工具如RiboTaxa)为未来深海环境DNA研究提供了重要工具和方法学参考。最后,该研究强调了数据共享和标准化对于理解这个全球最大且面临威胁的生态系统至关重要,为深海生态系统的保护、管理和应对全球变化影响提供了重要的科学数据基础。通过这种协同努力,我们正逐步揭开深海——这片地球上最后巨大荒野的神秘面纱,向着实现对深海生命的全球性、综合性评估迈出了关键一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号