高通量16S rRNA基因测序中文库制备方案与生物信息学流程的比较

《BMC Microbiology》:Comparison of library preparation protocols and bioinformatic pipelines in high-throughput 16S rRNA gene sequencing

【字体: 时间:2026年07月03日 来源:BMC Microbiology 5.4

编辑推荐:

  16S rRNA基因测序在临床与科研领域均被广泛用于细菌群落分析。随着可用的文库制备方案与生物信息学流程不断增加,分析灵活性得到提升,但也可能引入依赖方法学的偏倚,影响推断的微生物组成与相对丰度估算结果。目前针对文库制备方案、扩增子区域和

  
16S rRNA基因测序在临床与科研领域均被广泛用于细菌群落分析。随着可用的文库制备方案与生物信息学流程不断增加,分析灵活性得到提升,但也可能引入依赖方法学的偏倚,影响推断的微生物组成与相对丰度估算结果。目前针对文库制备方案、扩增子区域和生物信息学流程对物种分类水平推断与组成一致性的相对影响仍缺乏充分表征。因此研究人员对比了Illumina 16S rRNA宏基因组测序文库制备方案(V3-V4区)与Zymo Quick-16S Plus NGS文库制备试剂盒(V1-V2及V3-V4区),并联合使用nf-core/ampliseq与TRANA两种生物信息学流程开展评估。研究采用已知组成的微生物群落标准品、人粪便与结肠活检样本开展性能验证。
结果:流程选择是推断群落组成变异的主导驱动因素,其影响程度超过扩增子区域与文库制备方案。属水平的群落谱在各方法间整体一致。物种水平的分类分辨率及与预期群落组成的一致性在不同流程间存在系统性差异,其中TRANA与预期组成的Bray-Curtis不相似性显著低于nf-core/ampliseq。扩增子区域为次级影响因素,且其效应依赖流程选择;方案间的差异则相对较小。在临床样本中,个体间的生物学变异超过技术变异。
结论:生物信息学处理对短读长16S测序的物种水平推断存在显著影响,提示流程选择对微生物组研究设计与跨研究可比性至关重要。
本研究发表于学术期刊《BMC Microbiology》,围绕短读长16S rRNA基因测序的技术环节优化问题开展系统评估,明确了不同技术选择对微生物群落分析结果的影响优先级,为微生物组研究的流程标准化与跨研究可比性提升提供参考依据。
### 研究背景与立项依据
16S rRNA基因是存在于所有细菌与古菌中的高度保守分子标记,其包含的9个高变区(hypervariable regions, V1-V9)序列变异可为物种分类提供分辨能力,靶向扩增16S rRNA基因高变区开展高通量测序是当前临床与科研领域细菌群落分析的主流技术,可支撑病原检测、肠道菌群与胃肠道疾病关联研究等场景。相比鸟枪法宏基因组测序,16S rRNA测序具有成本更低、受宿主DNA污染影响小、计算需求少、参考数据库完善等优势,在临床低生物量样本分析中应用更广泛。然而当前该领域面临的核心问题是:文库制备方案、靶向扩增子区域选择、生物信息学分析流程均存在大量可选方案,不同方案可能引入方法学依赖的偏倚,影响推断的微生物组成与相对丰度估算的准确性;目前针对三类技术环节对物种水平分类推断与组成一致性的相对影响仍缺乏系统性表征,临床样本中的相关评估尤其匮乏。为填补这一研究空白,研究人员开展了本次系统比较研究。
### 关键研究方法
本研究核心采用的技术方法包括:(1)16S rRNA基因靶向扩增子测序,针对V1-V2、V3-V4两个高变区开展文库构建与高通量测序;(2)两类主流生物信息学分析流程对比,其中nf-core/ampliseq流程默认采用DADA2(精确扩增子序列变体推断算法)结合SILVA 138.2原核生物SSU数据库开展去噪与物种分类,TRANA流程采用EMU(期望最大化分类算法)结合NCBI 16S RefSeq与rrnDB(核糖体RNA操纵子拷贝数数据库)开展分类与丰度估算;(3)基于Bray-Curtis不相似性(Bray-Curtis dissimilarity)的群落差异分析,结合限制性置换方差分析(permutational multivariate analysis of variance, PERMANOVA)、α多样性(Shannon指数、Simpson指数)评估技术环节对群落结构的影响;(4)采用已知组成的微生物标准品开展组成一致性验证,量化检测结果与预期组成的偏差。样本队列包括ZymoBIOMICS官方微生物标准品、?rebro大学医院2019年4月至2022年3月入组的健康人粪便样本与结肠活检样本。
### 核心研究结果
#### 检测分类单元数量受技术环节显著影响
不同技术组合下检测到的属、物种级分类单元数量存在差异,生信流程的影响最为突出:TRANA检测到的低丰度分类单元数量显著多于nf-core/ampliseq;V3-V4区检测到的分类单元多于V1-V2区,文库制备方案的影响相对较小。
#### 物种分类分辨率受生信流程与扩增子区域选择性影响
属水平上各方法组合的相对丰度估计整体一致,与预期组成的偏差较小;物种水平上两类流程的系统性差异显著,TRANA与预期组成的Bray-Curtis不相似性显著低于nf-core/ampliseq,对Limosilactobacillus fermentum、Veillonella rogosae等物种的识别准确率更高。而nf-core/ampliseq存在大量属水平分类保留、同属内物种错分问题,且对V1-V2区中Escherichia|Escherichia-Shigella coli的识别存在系统性低估。扩增子区域的效应具有流程依赖性:TRANA对V1-V2区的组成估计一致性略高于V3-V4区,而nf-core/ampliseq呈现相反趋势。
#### 生信流程显著影响活检样本α多样性
在结肠活检样本中,nf-core/ampliseq的Shannon指数与Simpson指数估计值显著高于TRANA,粪便样本中两类流程的α多样性差异无统计学意义。
#### 群落组成变异的主导驱动因素为生信流程选择
基于Bray-Curtis不相似性的β多样性主坐标分析(principal coordinate analysis, PCoA)显示,生信流程可解释29.4%-31.9%的群落组成变异,远高于扩增子区域(6.6%-8.7%)与文库制备方案(1.8%-2.4%);所有样本类型中两类流程处理的样本均形成明显分离的聚类,差异具有统计学意义。
#### 临床样本中生物学变异超过技术变异
在粪便与结肠活检样本中,不同文库制备方案、扩增子区域、生信流程间的Bray-Curtis不相似性显著低于个体间的生物学差异,提示技术环节的变异幅度远低于真实样本间的生物学差异。
### 讨论与结论
研究人员指出,本研究的核心发现是短读长16S rRNA测序中生物信息学流程是影响物种水平分类推断与组成估计准确性的首要因素,文库制备方案的影响相对有限。两类流程的差异主要源于分类算法与参考数据库的不同:nf-core/ampliseq默认的DADA2算法先推断精确扩增子序列变体(amplicon sequence variant, ASV)再开展分类,受16S rRNA高变区序列分辨能力与数据库相似度阈值限制,容易出现物种水平分类保留或同属错分;而TRANA采用的EMU算法基于期望最大化框架迭代分配模糊比对结果,对低丰度物种的敏感度更高,物种分类一致性更好。扩增子区域的效应具有流程依赖性,提示区域选择的效果需结合生信流程判断。文库制备方案的影响较小,Zymo方案因操作步骤简化、可灵活选择扩增子区域,在操作便捷性上更具优势。本研究存在临床样本量较小、未独立评估DNA提取偏倚、生信流程采用默认参数等局限,但结果已明确提示:生物信息学流程选择是短读长16S rRNA基因测序的核心技术决策点,研究设计需结合研究目标审慎选择流程,跨研究比较时需格外注意技术环节的一致性;TRANA在本研究评估的流程中表现出更优的物种水平组成一致性,而文库制备方案可根据操作成本与通量需求灵活选择。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号