建立基于DNA的土壤生物多样性评估策略:来自步甲甲虫的启示

《Ecology and Evolution》:Establishing DNA-Based Strategies for Soil Biodiversity Assessment: Insights From Carabid Beetles

【字体: 时间:2025年11月08日 来源:Ecology and Evolution 2.3

编辑推荐:

  土壤大无脊椎动物DNA宏测序流程中,样本脱污不影响OTU丰富度,但物种水平准确性高度依赖高质量参考数据库。分子技术较传统形态学能更全面捕获分类单元,但需结合形态学验证。建议整合分子技术与传统分类,并持续优化本地参考数据库以提高准确性。

  土壤作为陆地生态系统的基础,支持着多种维持生态系统平衡的功能,其在陆地生态系统中的关键作用得到了广泛认可。在欧洲,60%至70%的土壤被认为处于不健康状态,持续的退化过程每年造成显著的损害,这促使了土壤保护与修复工作的迫切需求,同时也推动了相关政策的制定。此外,土壤系统的复杂性和模块性提供了不同的生态位,支持着惊人的生物多样性。事实上,土壤可能是陆地生态系统中最丰富的生物多样性环境之一,几乎包含了地球物种的四分之一,因此被视为全球生物多样性的储存库。

生物多样性丧失在各种生态系统中已被广泛报道,而土壤生态系统也不例外,这种趋势对生态系统服务产生了直接影响。土壤生物多样性可以定义为地下生命的多样性,从基因到群落层面,这些生物在维持和支撑土壤功能以及土壤提供的商品和服务方面发挥着至关重要的作用。土壤生物多样性的减少正威胁着欧洲的土壤健康。土壤生物多样性不仅有助于土壤的健康,还可以用于改善生态系统功能,从而提高农药和肥料的使用效率,降低管理成本。因此,建立快速、可靠的监测方案对于理解管理实践变化的影响至关重要。

然而,传统的基于形态学的土壤宏生物评估方法存在时间长、成本高和依赖于分类学专业知识的问题。这些方法受到“分类学障碍”的限制,即分类学资源有限,难以处理隐秘物种、未成熟阶段的个体以及受损标本,从而成为生物多样性调查的瓶颈,限制了调查的规模、准确性和频率。此外,缺乏全球范围内对土壤生物多样性评估的统一采样和方法学标准,也阻碍了数据集之间的比较。

分子技术,如DNA元条形码(metabarcoding),已成为一种强有力的替代方法,克服了许多传统方法的局限性。它已经在不同的生态系统中得到应用,包括淡水、海洋、陆地和古环境。通过结合DNA条形码和高通量DNA测序(HTS),DNA元条形码可以为大量社区样本提供快速、一致且成本效益高的生物体识别方法。这种方法显著增加了生物多样性数据的量,同时减少了对人工分类排序的依赖,使得大规模评估更加高效。节肢动物的DNA元条形码目前广泛用于评估节肢动物群落,尽管其具有巨大潜力,但标准化和建立的协议仍然不足,导致结果可能因方法学选择而显著不同。

为了提升土壤宏生物评估的准确性和效率,本研究旨在评估并优化DNA元条形码工作流程,特别是在葡萄牙中部地区,通过结合分子技术和传统分类学知识,增强生物多样性监测和保护措施。具体目标包括:评估次氯酸钠(NaOCl)去污染步骤的成本效益及其对污染水平的影响;利用精心构建的模拟社区验证元条形码流程的物种恢复效率;以及比较DNA元条形码与传统形态学识别在分类多样性和分辨率方面的表现。本研究的结果表明,常用的去污染步骤对OTU(操作分类单元)丰富度的影响并不显著,这意味着在评估土壤宏生物多样性时,该步骤可能不是关键因素。与形态学相比,DNA元条形码在较高分类等级上提供了更全面的分类概览。然而,使用模拟社区进行验证发现,在物种级别上仍存在差异,这表明其准确性高度依赖于参考数据库的质量。

DNA元条形码是一种当前广泛使用且前景良好的技术,用于评估宏生物群落,具有时间、效率和成本方面的优势。然而,要达到更深层次的分类分辨率,仍然需要进一步的发展。其物种级别的准确性依然依赖于全面且精心整理的条形码参考数据库。因此,我们建议采用整合的方法,将分子数据与有针对性的验证相结合,以获得最可靠的结果。为此,我们推荐使用整合方法进行稳健和快速的生物多样性评估。研究还发现,常见的去污染步骤对于土壤宏生物元条形码的准确性并非至关重要,因此可以去除该步骤以简化样本处理过程。

在材料和方法部分,本研究在葡萄牙的Idanha-a-Nova地区进行,作为CULTIVAR项目的组成部分。采样设计包括24个监测点,每个监测点设有9个陷阱,以3×3的网格布局排列,总共部署了216个陷阱。这些陷阱在2022年11月下旬至12月初部署,并在野外停留了13至17天。陷阱中填充了0.3升乙二醇,使用盖子以减少雨水积聚和防腐剂稀释,保持标本的完整性。收集后,样本储存在96%的乙醇中,直到进一步分析。样本在低倍率立体显微镜下进行分类,其中标本被计数并进行形态学识别,通常达到最低可行的分类等级(通常是目)。对于更高分类等级的鉴定,则使用共享的诊断特征和二分法键。所有鉴定均由专家分类学家(共同作者Sara Mendes)进行验证,当存在不确定性时,还会寻求协作网络中专家的进一步咨询。在某些情况下,由于形态学分辨率有限或缺乏足够的分类学知识,标本可能被保留于更高分类等级(如科或目)。

为防止样本处理过程中的交叉污染,所有工具,包括镊子等,均在每次使用前彻底清洁和火焰灭菌。本研究构建了一个本地的COI(细胞色素氧化酶亚基I)条形码参考数据库,用于识别至少一种代表每个识别出的Carabid物种的个体。COI序列通过Folmer引物LCO1490和HC02198进行扩增,长度为710 bp。为了提高DNA提取的成功率,个体标本从乙醇中取出后,在滤纸纸上干燥10分钟,随后用1%的次氯酸钠溶液轻轻摇晃3分钟进行漂白。之后,标本用蒸馏水清洗三次,每次1分钟。DNA提取使用Qiagen DNeasy Blood & Tissue Kit,根据标本的大小采用不同的提取方法。对于较小的个体(<1 cm),采用非破坏性方法,将整个标本浸泡在消化缓冲液中过夜。对于较大的标本(>1 cm),则采用破坏性方法,从单侧移除1至3个附肢并进行研磨。DNA质量检查使用NanoDrop,而DNA浓度则通过Qubit进行测定。

PCR反应中使用了10 μL的Supreme NZYTaq II 2× Green Master Mix,1 μL的每种引物(10 nM),以及至少10 ng/μL的DNA模板,总体积为20 μL。循环条件包括初始95°C变性3分钟,随后进行五轮变性30秒、退火30秒和延伸45秒,然后进行32轮循环,变性30秒、退火51秒和延伸30秒,最后延伸10分钟。PCR产物通过1%琼脂糖凝胶电泳检查以确认扩增成功,并使用ExoSAP-IT Express进行纯化。随后通过Sanger测序进行分析(由Eurofins执行)。COI条形码序列作为查询,与BOLD数据库进行比对,使用默认的≥98%查询覆盖率,并尽可能进行分类学赋值。未在BOLD数据库中获得分类学赋值的序列进一步通过BLASTn算法(从GenBank数据库中检索)进行分析,最低查询覆盖率阈值为97%。

在处理过程中,所有形态学识别的宏生物物种,除了来自Carabidae和Formicidae科的个体,都被合并为191个宏生物群落样本。处理标本时,所有材料(如镊子和勺子)均使用3%的次氯酸钠溶液和96%的乙醇进行清洁。在DNA提取前,一半的宏生物样本用3%的次氯酸钠溶液进行去污染处理1分钟,以减少外来DNA,并用蒸馏水清洗三次,每次1分钟。样本随后在56°C的恒温箱中过夜干燥。根据生物内容的量,每个样本中添加1至4颗直径为8 mm的玻璃珠,以将生物材料转化为细粉。使用Bullet Blender 50-DX均质化器进行至少15分钟的均质化处理。DNA提取使用E.Z.N.A. Tissue DNA Kit,遵循修改后的协议。每个样本中提取70 mg均质化后的宏生物粉末。如果样本量不足70 mg,则使用全部样本。我们排除了两种生物:蚂蚁(Formicidae)和Carabid甲虫(Carabidae)。蚂蚁被用于另一个项目,而Carabid甲虫则用于制作模拟样本以验证元条形码流程。采用两步PCR协议进行Illumina文库准备。第一步使用BF3和BR2引物对,结合Illumina接头,扩增COI线粒体基因的418 bp片段。PCR反应包括5 μL的Qiagen Multiplex Master Mix、0.3 μL的每种10 nM引物、3.4 μL的H2O和1 μL的模板DNA(先前稀释为1:100)。循环条件包括初始95°C变性15分钟,随后进行35轮循环,变性30秒、退火30秒和延伸30秒,最后延伸10分钟。PCR产物通过2%琼脂糖凝胶电泳检查以确认扩增成功。在整个实验室流程中,提取空白和PCR阴性对照被纳入以评估和控制潜在的污染。所有样本均产生了可见的扩增条带,而提取空白和PCR阴性对照则未显示出污染迹象。PCR产物稀释为1:4,并进行第二轮PCR以引入7 bp长的识别索引,基于Illumina Nextera XT Kit,以及Illumina P5和P7测序接头。第二轮PCR的条件与第一轮类似,但使用了7 μL的Kapa HiFi Hot Start mix以及0.7 μL的每种10 nM索引引物。循环条件包括初始95°C变性3分钟,随后进行8轮循环,变性30秒、退火30秒和延伸30秒,最后延伸5分钟。PCR产物在左侧使用Agencourt AMPure XP珠进行纯化。每种纯化样本的浓度随后通过NanoDrop进行测定。为了实现标准化,每个样本被稀释至20 nM的标准浓度。这些标准化后的PCR产物被合并成一个等摩尔文库。最后,使用qPCR(KAPA Library Quant Kit qPCR Mix)对文库进行浓度测定,并在Illumina Novaseq平台上进行测序。双步骤PCR和条件在附录S1中图示。

模拟社区的构建和OTU恢复效率的评估是本研究的重要组成部分。从每个Carabid物种中提取的DNA被按等摩尔比例混合,使用Qubit荧光计进行测定。这个模拟社区样本作为对照,用于验证元条形码流程,特别是评估引物性能、分类分辨率和OTU丰富度的估计。通过比较预期的物种多样性与观察到的OTU丰富度,我们评估了元条形码流程的效率。模拟社区包含31个形态学识别并条形码标记的Carabid物种,设计用于评估元条形码流程在已知分类单元序列恢复效率方面的能力。我们选择了30个DNA提取样本,分别来自高多样性和低多样性群落样本(各15个)。对于每个样本,取一部分并以不同比例(10%、25%、50%)加入模拟社区DNA。原始未加入模拟社区的样本被处理,作为0%模拟社区的对照。这种配对设计允许直接比较社区特征在加入模拟社区DNA前后的变化。

生物信息学流程包括初始质量评估、序列处理、去噪和数据库比对。在接收到原始测序数据后,使用FastQC(版本0.12.1)进行初步质量评估,以评估读取质量、接头含量和其他基本指标。随后使用OBITools 4进行序列处理,结合VSEARCH和LULU进行去噪。首先,使用“obipairing”命令合并配对读取,未对齐的序列被丢弃。读取被分配到各自的样本,并使用“obimultiplex”命令修剪引物序列,允许每个引物序列最多有四个错配。然后,使用“obiuniq”命令将读取去重为唯一序列,并使用“obigrep”命令移除单个读取的序列(单例)。剩余的精确序列变异(ESVs)被合并到一个文件中,并使用VSEARCH进行处理。首先,使用“--derep_fulllength”命令对读取进行去重,然后使用“--cluster_unoise”命令去除由于PCR和测序错误引起的读取。随后,使用“--uchime3_denovo”命令检测并去除嵌合序列。剩余的序列按照99%的相似性标准进行聚类,定义为OTUs。通过LULU(Fr?slev等,2017)识别和筛选出可能的核线粒体(NUMTs)和其他伪迹,这一筛选步骤对于避免人工夸大多样性估计至关重要。所有剩余的OTUs通过“boldigger-cline ie_coi”命令与在线数据库(BOLD和NCBI)进行分类学赋值。

在对土壤宏生物元条形码的分类方法进行比较分析时,我们对数据进行了统计验证。虽然某些群体通过形态学仅被识别到较低的分类等级,但所有统计分析均在最低可行的分类等级(主要是目)上进行。形态学无法可靠识别的标本,如幼虫、蛹或受损个体,被排除在形态学数据集之外。对于元条形码数据,进一步过滤了分类学赋值后的序列。OTUs被排除在土壤宏生物的范围之外,或仅被分类到高于类的分类等级。此外,我们仅保留了那些在BOLD参考数据库中与最佳匹配序列的序列相似度超过85%的OTUs。通过评估DNA提取空白和PCR阴性控制的数据,我们识别并排除了在任何阴性控制中读取数超过20的OTUs,以确保分类学赋值的稳健性。这一保守的阈值有助于减少伪序列的纳入,并提高下游分析的可靠性。我们进行了双样本t检验,以评估样本之间丰富度的可比性。

为了评估测序深度对每个样本的总体适用性,我们使用“rarecurve”函数生成了稀有化曲线(见附录S1:图S4)。此外,为了评估我们方法的整体完整性,我们使用非参数物种丰富度估计器计算了数据集的总分类丰富度。在最终过滤后的OTU群落矩阵(191个样本×857个OTUs)中,我们使用“specpool”函数计算了观察到的丰富度和估计的总丰富度。社区恢复百分比计算为(观察到的丰富度/Chao2估计的丰富度)×100。为了评估形态学和元条形码方法得出的出现和丰度数据的有价值性,我们在样本和种群层面使用了从Deagle等人(2019)中改编的生物多样性指标。为了确保两种方法的可比性,我们对两种数据集进行了分类群组的统一。此外,从目级丰度数据集中排除了来自目级分类的Coleoptera和Hymenoptera个体。在样本层面,我们分析了20个随机选择的样本,以评估三个关键指标:目级丰富度(即每个样本中检测到的分类目数量)、加权出现和相对分类丰度(RTA),基于形态学计数,以及相对读取丰度(RRA),基于元条形码数据。在群落层面,我们计算了出现频率(FOO),即每个分类单元在所有样本中被检测到的比例;出现百分比(POO),这是一个重新缩放的出现/缺失指标;以及加权出现百分比(wPOO),它考虑了丰富度的变化,对每个样本赋予相等的权重。这些指标允许我们系统地比较每种方法如何反映分类单元在样本中的存在和相对丰度,以及在更广泛的生态尺度上的表现。此外,我们进行了Pearson相关性分析,以评估两种方法在目级上的关系。对于每个分类目(包括Coleoptera和Hymenoptera),我们比较了形态学丰度(每个样本中的个体总数)和分子丰度(每个分类目所有OTUs的序列读取总数)。为了标准化数据,丰度计数和读取计数均在分析前进行了log10转换。随后,我们使用Pearson相关系数评估了每个分类目之间的关系(见附录S1:图S5)。

Carabid物种级别的分类学赋值用于比较传统、条形码和元条形码方法。为了定义物种级别的相似性阈值,我们使用ClustalW在MEGA版本11.0.10中对671个COI序列进行了比对。随后,我们应用了ASAP方法(Puillandre等人,2021),使用Kimura 2参数模型。ASAP确定的最佳分区对应于成对距离阈值从0.031到0.078。基于其中一个最佳支持的分区,我们选择了保守的93%相似性阈值(即0.071距离)作为物种级别的初步识别标准。这一阈值反映了我们参考集的相对较短的片段长度和变异性。大多数标本的相似度超过97%,其中仅有一个临界情况(Poecilus cupreus,95.25%)因形态学和元条形码证据的一致性而被保留。相似度低于93%的标本被排除在物种级别的解释之外。在元条形码数据中,所有但一个模拟社区标本均与参考序列具有97%以上的相似度,支持了这种方法的适当性,并与已建立的条形码间隙值一致。

由于对OTUs根据条形码间隙进行过滤(见附录S1:图S6),在34个OTUs中,只有18个适用于方法学比较。这表明了DNA元条形码方法依赖于参考数据库的质量、全面性和准确性,因为分类学序列赋值需要将未知DNA序列与参考数据库进行比对。我们承认这种方法的局限性,如参考数据库的覆盖不全、地区性缺失、标记分辨率降低和分类学歧义,这些因素可能限制了准确分类到更高分类等级的能力。因此,需要谨慎解释,并强调持续投资于参考库的开发和分类学专业知识的重要性。因此,元条形码检测到形态学未检测到的分类单元并不一定意味着形态学识别存在错误,而是说明分子方法能够超越形态学分析的限制,实现更深入的分类学解析。此外,元条形码可以检测到样本中未物理存在的生物的DNA。例如,在本研究中,我们检测到了被有意移除的Formicidae和Carabidae科的OTUs。这一现象在批量样本分析中较为常见,可能是由于“二次DNA”的扩增,如捕食者肠道内容物的DNA或通过保存液在标本之间转移的DNA。

这些发现强调了元条形码的一个关键特性:它对样本中所有DNA进行库存,并不仅仅是对完整、可观察生物体的DNA。尽管这增强了检测的敏感性,但也需要对生态学意义进行仔细的解释,尤其是在分子方法和形态学方法结果不一致的情况下。此外,元条形码的高分辨率结合其对残留DNA的检测能力,使其成为与传统分类学结合使用的重要工具,从而实现更全面和准确的生物多样性评估。这种综合方法不仅有助于填补分类学上的空白,还能够揭示隐藏的土壤生物多样性层,这对保护和生态系统管理至关重要。

尽管我们的研究显示分子方法可以改善分类学赋值并帮助检测形态学未识别的分类单元,但我们并未直接评估遗传多样性或隐秘物种。元条形码的一个挑战在于确定序列读取数是否能作为物种相对比例的可靠代理。我们的结果表明,虽然通常存在正相关,但这种关系在不同分类单元之间变化很大。不同目之间的相关性强度差异可能源于生物和技术创新偏差,包括分类单元在生物量、DNA提取效率和PCR引物亲和力上的差异。例如,Coleoptera和Hymenoptera的弱相关性提供了对这一现象的有力且实际的说明。从分子工作流程中移除高度丰富的Carabidae和Formicidae科的标本,破坏了形态学计数与最终序列数据之间的相关性。这表明,元条形码读取数反映了处理后的样本组成,而不是原始群落。实验决策如样本分类可能会影响定量解释。Gastropoda的不显著相关性可能归因于软体动物DNA与引物模板的亲和力较差、DNA提取效率低下或个体数量较少。最终,我们的发现支持了这样一个观点:虽然读取数不是标本数量的直接测量,但在理解特定工作流程和目标分类单元中的方法学偏差时,它们可以提供有价值的见解。

在本研究中,我们还强调了建立全面且可靠的参考数据库的重要性。分子参考数据库平台,如Bold Systems和NCBI,为DNA元条形码提供了宝贵的资源。然而,物种级别的赋值可靠性仍然是一个讨论的话题。对于研究较少的无脊椎动物分类单元,挑战尤为突出,而分类到属或更高分类等级的赋值通常更为可靠。我们的结果反映了这一趋势。如图4所示,属级分类的强交集(63%)表明,属级分类在不同方法之间的契合度高于物种级别(39%),因此在物种级别上发现的分类学差异高于属级别。这些差异可能是由于全球参考序列与研究生态系统中本地物种组成之间的不匹配,这可能会影响分子分类。如果一个序列没有被之前确认的物种所覆盖,它就无法被可靠地分配到该物种。因此,生物多样性研究不应仅依赖参考数据库进行物种的分子识别,这些数据库必须持续更新和整理。在本研究中,Carabidae的条形码评估揭示了某些序列未能匹配任何已知参考的情况,这可能由于遗传分化或现有数据库中代表不足所致。开发高质量的参考数据库,特别是基于已建立分类学知识的本地条形码参考库,对于提高分子方法的可靠性至关重要。例如,将我们的Carabid凭证序列更新到BOLD数据库中,预计将减少仅通过形态学识别的物种比例,并提高不同方法之间的一致性。这预计会改变我们的维恩图结果(图4A),将目前仅通过分类学识别的34%物种减少到几乎为零,同时提高不同方法之间的重叠度。

本研究的结论和建议指出,分子方法在土壤宏生物多样性评估方面取得了显著进展,特别是DNA条形码和元条形码。通过促进分子和形态学分类方法的整合研究,并开发可靠的参考库,可以提高数据的准确性,并加深对复杂生态系统的理解。这种结合方法为全球和区域生物多样性研究以及生态监测提供了显著的潜力,使研究人员能够填补分类学空白,提高分辨率,并更深入地了解本地生物多样性。然而,建立可靠的本地条形码参考库至关重要。

我们的发现支持了这样一个观点,即虽然形态学分类提供了坚实的基础,但分子方法通过改善某些情况下的分类学赋值,检测到形态学方法可能遗漏的分类单元,并有助于构建更完整的样本Carabid群落图景。尽管我们的数据没有具体揭示隐秘物种或评估遗传多样性模式,但综合方法加强了生物多样性评估,并为未来的生态监测提供了希望。此外,我们强调了持续更新、审查和扩展全球数据库的重要性,以确保分子识别的准确性和可靠性。分类学级别的注释整理将需要大量的科学努力和紧密的跨学科合作,包括分子生态学家和每个分类单元的专家。对于未来的研究,我们建议:

1. 增强本地参考库:投资于开发和整理本地条形码参考库,以在区域或本地尺度上捕捉物种的遗传多样性。这一步对于准确的物种赋值至关重要,尤其是对于具有高隐秘多样性的土壤无脊椎动物。

2. 采用整合的分类学方法:结合形态学和分子方法,以最大化分类学分辨率,使研究人员能够填补物种识别的空白并揭示隐秘分类单元。

3. 优化去污染协议:研究不同分类单元、环境背景和样本类型之间的去污染影响,以优化分子研究的协议。在整个采样和实验室流程中,建议使用阴性对照来控制污染源。

4. 标准化阴性对照的使用:在野外采样和实验室流程中持续纳入阴性对照,以检测和减轻潜在污染,确保分子数据的可靠性。

5. 评估定量关系:未来的研究应系统地调查分类单元的标本数量、生物量和种群密度与测序读取数之间的关系。理解这些关系对于评估元条形码的定量可靠性至关重要,并有助于其在生态监测和种群层面分析中的应用。

6. 数据库开发和维护:优先考虑使用凭证序列更新参考数据库,以增强分子识别的可靠性。

7. 专注于生物量和密度等人口参数与读取数之间的关系,这可能为种群动态提供见解。

最终,结合分子和传统分类学方法为解决当前限制提供了一种有希望的方式,通过促进整合研究方法、开发可靠的参考库和提高数据准确性。这种方法有潜力增强生物多样性研究,加深我们对物种相互作用和环境健康的理解,改善现有的生态系统管理实践,并优化保护策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号