《Molecular Ecology Resources》:Fast, Flexible, Feasible: A Transparent Framework for Evaluating eDNA Workflow Trade-Offs in Resource-Limited Settings
编辑推荐:
本文系统评估了环境DNA(eDNA)工作流程中的关键权衡,比较了四种DNA提取方法(如Qiagen BT、Chelex)、两种引物(MiFish-U/MarVer1)、三种纳米孔测序碱基识别模型(Fast/HAC/SUP)及两种拆分流程在资源有限场景下的表现。研究表明,通过优化组合(如BT提取+MiFish-U引物+HAC模型)可在3–5小时内检测≥12种鱼类,为野外快速生物多样性监测提供了可定制、成本可控的解决方案,极大推动了eDNA技术在资源受限地区的应用。
1 引言
环境DNA(eDNA)分析技术通过检测水体、空气和沉积物中的痕量遗传物质,正在彻底改变生物多样性监测的格局。然而,高昂的试剂成本、冷链物流和计算需求限制了其更广泛的应用,尤其是在资源有限的环境中。为了应对这些挑战并提高可及性,本研究系统比较了多种工作流程组件,包括四种DNA提取方法、两对引物、三种纳米孔(Oxford Nanopore Technologies, ONT)碱基识别模型和两种数据拆分流程。
2 材料与方法
2.1 实验设计与eDNA提取方法选择
研究采用析因设计评估不同方法选择对eDNA代谢编码结果的影响。总共测试了48种独特的工作流程组合,涉及12个生物样本(四种提取方法各三个重复)。评估的四种DNA提取方法包括:广泛使用的柱式法DNeasy Blood & Tissue(BT)试剂盒、低成本树脂法Chelex-100、酶裂解法QuickExtract以及无需纯化的DirectPCR/离心透析法。这些方法在成本、处理时间、设备要求和DNA回收率方面存在显著差异。
2.2 样本收集、过滤与保存
水样采集自西雅图水族馆的一个45万升混合物种水箱,该水箱包含19种已知鱼类,为工作流程比较提供了标准化环境。考虑到两种物种对的12S标记序列无法区分,最终分析在15个操作分类单元(OTU)水平进行。
2.3 样本处理、eDNA提取与直接PCR制备
滤膜处理后,将水样悬浮液随机分配至不同的DNA提取方案。DirectPCR方法通过Amicon超滤离心柱浓缩DNA,无需纯化步骤,而其他方法则遵循制造商协议。所有提取均在样本采集后2-4小时内完成。
2.4 文库制备与测序
使用两对引物集进行扩增:鱼类特异性的MiFish-U和覆盖更广脊椎动物的MarVer1,均靶向12S rRNA基因区域。每个PCR反应设置三个技术重复,并使用独特的5’标签进行区分。扩增子使用SQK-LSK-114连接测序试剂盒制备文库,并在R10.4.1芯片的MinION Mk1B平台上进行测序,运行时间最长达61小时。
2.5 碱基识别模型
使用Dorado软件对原始POD5数据进行三种模式的碱基识别:快速(Fast)、高精度(HAC)和超精度(SUP)。评估在Apple MacBook Pro(M3 Max芯片)和MSI Raider游戏本(NVIDIA RTX 4090显卡)两种硬件上进行,以比较计算效率。
2.6 数据拆分流程
使用两种工具进行数据拆分:ONTbarcoder2.3和OBITools4。前者是图形界面工具,能处理自连读段;后者是命令行工具,具有识别插入缺失(indel)的能力。两种工具均在相同的碱基识别后FASTQ文件上运行,以确保比较的公平性。
2.7 物种分类学鉴定
使用Kraken2分类器,并基于MitoFish数据库构建自定义参考数据库进行物种注释。未进行读段聚类或一致性校正,以保持流程的轻量性。采用0.1的置信度阈值,并保留归类到辐鳍鱼纲(Actinopterygii)的读段。
2.8 实时测序分析
除了合并的POD5文件,还单独处理了61小时运行中每小时产生的数据,从而进行时间分辨率的eDNA检测分析。每小时的数据都经过碱基识别、数据拆分和物种分类,生成61个时间点的物种检测快照,用于构建物种累积曲线。
2.9 统计分析与可视化
所有统计分析在R语言环境中进行。使用零和一膨胀狄利克雷(ZOID)回归模型分析不同因素对物种检测比例的影响。原始读长计数经log10转换后用于可视化。此外,还使用广义可加模型(GAM)拟合物种累积随测序时间的非线性趋势。
3 结果
3.1 读段回收与物种检测
3.1.1 DNA提取方法对读段深度和物种检测的影响
在所有工作流程中,Qiagen BT提取法 consistently 产生最高的读段计数,在最佳条件下每个样本重复可达约42万条原始读段。Chelex法的读段计数始终最低,大多数样本少于1000条读段,导致低丰度类群的检测能力下降。DirectPCR和QuickExtract法则产生中等读段深度。统计分析(ZOID模型)表明,与BT基线相比,Chelex样本的检测比例 consistently 较低,而DirectPCR和QuickExtract的表现与BT相近或略低。即使通过稀释抽样使读段深度均一化或转换为存在/缺失数据,提取方法的排名(BT > DirectPCR ~ QuickExtract > Chelex)依然保持不变。
3.1.2 引物、碱基识别算法和数据拆分对读段深度和物种检测的影响
引物选择强烈影响读段回收。MiFish-U引物产生的鱼类读段数量显著高于MarVer1引物(约5万-30万条 vs. 约3000-2万条)。虽然两种引物均能检测到15种鱼类OTU,但MiFish-U显示出更高的鱼类检测灵敏度。碱基识别模型方面,Fast模式速度最快但读段质量最低;HAC模式在速度和准确性间取得平衡;SUP模式精度最高但计算成本巨大。HAC和SUP模型的物种检测结果非常相似。数据拆分工具中,ONTbarcoder2.3比OBITools4保留了更多的读段,尤其有利于低丰度类群的检测。
3.2 工作流程的时间、计算能力及其他考量
3.2.1 碱基识别算法速度与计算时间
Fast碱基识别处理完整数据集在NVIDIA RTX 4090上约需30分钟,Apple M3 Max上约2小时。HAC模式在RTX 4090上需约14小时,M3 Max上超过一天。SUP模式在RTX 4090上需约50小时,在M3 Max上超过两周。从HAC升级到SUP所带来的物种检测增益有限,但计算时间显著增加。
3.2.2 61小时实时测序中的物种累积
物种累积曲线显示,在最优工作流程(BT提取 + MiFish-U引物 + HAC/SUP碱基识别)下,所有15个OTU在3-5小时内即可被检测到,并在约8-15小时达到平台期。而使用Chelex提取的样本,即使经过61小时测序,也未能完全检测到所有15个OTU。DirectPCR和QuickExtract需要约10-12小时达到近完全检测。不同物种的检测动态也不同,常见物种(如银鲑)在测序开始后1-2小时内即被检测到,而某些稀有物种(如黄眼石斑鱼)则需要超过10小时才能稳定检测。测序时间超过40小时后,物种检测率的提升微乎其微。
4 讨论
4.1 野外适用提取方法的性能与可行性
本研究结果强化了DNA提取方法在eDNA工作流程中的关键作用。Qiagen BT方法在受控环境下 consistently 表现最佳。DirectPCR和QuickExtract作为现场友好的替代方案,在减少基础设施依赖的前提下,仍能实现接近完全的物种检测,但可能在抑制剂丰富的环境中效率降低。Chelex成本极低,但灵敏度也最低,可能更适用于只关注优势类群的高通量筛选。没有一种提取方法是普遍最优的,选择取决于研究目标和资源限制。
4.2 引物选择的权衡:特异性与分类覆盖度
引物选择通过影响物种检测的广度和特异性来进一步优化分类分辨率。鱼类特异性的MiFish-U引物在鱼类读段计数方面 consistently 优于覆盖更广脊椎动物的MarVer1引物。这表明,对于专门的鱼类调查,MiFish-U是首选;而对于需要了解更广泛脊椎动物多样性的生态系统水平研究,MarVer1可能提供附加价值。由于两种标记都靶向短的12S微型条形码,部分近缘种无法区分。虽然纳米孔测序支持长读长,但在现场便携式设置中实际回收长的eDNA片段仍然具有挑战性。
4.3 计算权衡:碱基识别准确性与数据拆分效率
碱基识别和数据拆分是eDNA工作流程中的关键步骤,各自在速度、准确性和物种回收率之间引入权衡。Fast碱基识别模式显著缩短处理时间,但代价是读段质量较低,影响物种水平鉴定的可信度。HAC碱基识别在速度和灵敏度之间提供了最佳平衡。SUP精度最高,但处理时间过长,不适合大多数现场或实时应用。在数据拆分方面,OBITools4提供了高度自动化的流程,但保留的读段数量 consistently 少于ONTbarcoder2.3,可能导致稀有类群漏检。对于需要快速处理高通量测序数据的大规模监测项目,OBITools4很有价值;而在每个读段都至关重要的场景(如病原体监测),ONTbarcoder2.3的手动但高回收率的方法可能更可取。
4.4 实时eDNA测序中的检测平台期
对61小时纳米孔测序运行的每小时分析揭示了在不同工作流程下,15个已知水族馆OTU的检测速度多快达到平台期。在最优情况下,几乎所有物种在3-5小时内即可被稳定检测。这种短时间框架对于实时生态监测非常有价值。相反,次优的工作流程显示物种检测速度要慢得多。延长测序时间并不能弥补较差的提取效率。研究结果表明,在测序协议中实施自适应停止策略可以优化运行时间。
4.5 迈向资源有限环境中可及且可扩展的eDNA监测
简化提取法(DirectPCR, QuickExtract)与高精度碱基识别(HAC)相结合,仍然可以回收大多数已知类群,使其在预算或基础设施受限的情况下成为可行的替代方案。将具有成本效益的提取法与便携式MinION测序仪集成在“盒中实验室”模式中,可以显著扩大eDNA的全球应用。生物信息学的可及性仍然是非专业实验室采用的主要障碍。许多分析流程依赖命令行工具。然而,基于云的平台、图形用户界面驱动工具和低成本的现场可部署计算资源正在成为可行的替代方案。新兴的低功耗、现场适应性分子工具(如等温扩增)可以进一步增强eDNA的可及性。
5 结论
在受控水族馆的48种工作流程组合中,BT提取 + MiFish-U引物 + HAC/SUP碱基识别的组合能够最快速地接近完全检测(约3-5小时检测≥12个物种;约8-15小时达到平台期)。DirectPCR和QuickExtract在最小基础设施需求下,约10-12小时可实现近完全检测,而Chelex灵敏度较低,需要超过24小时才能达到接近的检测水平。HAC在速度和准确性之间取得平衡;与覆盖更广脊椎动物的MarVer1相比,MiFish-U提高了鱼类特异性读段深度。ONTbarcoder2.3比OBITools4保留了更多的低丰度读段,后者以轻微的灵敏度损失换取了更高的自动化程度。实时序列累积曲线支持在检测达到平台期后自适应停止测序。总体而言,这些结果表明没有单一的工作流程是普遍最优的,而是每种方法都提供了独特的优势,可以根据特定的研究目标进行匹配。