基于QIIME2的工作流程,用于多扩增子16S rRNA分析
《Microbiology Resource Announcements》:A QIIME2-based workflow for multi-amplicon 16S rRNA profiling
【字体:
大
中
小
】
时间:2025年12月10日
来源:Microbiology Resource Announcements 0.6
编辑推荐:
本研究开发了适用于Ion Torrent测序的QIIME2开源多区16S测序流程,通过模拟社区验证显示其分类准确度(F1分数0.875)与专有软件Ion Reporter相当,且多区方法显著优于单区分析。
摘要
我们介绍了一个开源的QIIME2流程,用于16S多扩增子测序。通过与专有软件在模拟社区数据上的对比测试,我们的工作流程显示出相当的测序深度和分类准确性(F1分数=0.875)。多区域方法优于单扩增子方法,验证了我们的流程是处理基于半导体的测序数据的可靠替代方案。
公告
多扩增子测序可以提高分类分辨率,但目前针对Ion Torrent数据的强大开源工作流程与专有工具的对比测试还不够充分。为了解决这个问题,我们提出了一个基于QIIME2的流程,并使用ZymoBIOMICS微生物群DNA标准(Zymo Research,目录号:D6306)与Ion Reporter(IR)软件进行了对比验证。
从模拟DNA标准中生成了针对六个16S rRNA高变区的扩增子文库(V2;V3;V4;V6-7;V8;V9),并将其浓度标准化为20 ng/μL,使用Thermo Fisher的Ion 16S宏基因组学试剂盒按照制造商的协议(公开编号:MAN0010799)进行操作。文库使用Ion Xpress接头进行索引,然后汇集并在Ion GeneStudio S5平台上进行测序,生成长度为170–350 bp的单端读段。
原始读段分别使用专有的IR(v5.20)宏基因组学16S v1.1流程和我们的自定义QIIME2(v2023.7)流程进行了分析。原始数据首先使用Ion Torrent Suite进行解复用,随后使用Metagenomics PP插件(Thermo Fisher)转换为每个区域的FASTQ文件,该插件会去除条形码和引物。通过DADA2(
2)软件进行去噪处理,并使用“-pyro”选项来正确模拟Ion Torrent的错误分布。将得到的区域特异性扩增子序列变异(ASV)表格合并,统计重叠读段的计数,并附上相应的代表性序列。使用SEPP(3)构建了系统发育树。作为主要基准测试,分类结果是与Greengenes v13_5数据库(4)进行比对的。参考数据库是通过提取接近全长的序列为多区域分析准备的,而为单区域分析提取了特定的扩增子,所用引物详细信息见我们的原始研究(5)。然后使用VSEARCH(6)采用了“从局部到全局”的比对策略,将每个短ASV与长参考序列中的最佳匹配片段进行全局比对。最终将QIIME2处理后的结果导入R(v4.2.2)中,使用QIIME2 R包(v0.99.6)创建了一个phyloseq对象(v1.46.0)(7),并通过tax_glom(NArm = TRUE)将其归类到属级别。所有后续的统计分析都在R中完成。
为了验证我们流程的性能,我们使用具有已知组成的模拟社区数据与专有的IR流程进行了直接比较。首先使用FastQC(v0.12.1)对原始数据集进行了分析,发现所有样本的总读段数为180,253个,读段长度范围为50–350 bp。在确定了流程的输出结果后,我们根据已知的模拟组成评估了其分类准确性(
表1)。我们的V2-9流程与IR的表现相同,最终F1分数为0.875。两种流程都未能检测到
Escherichia,这是Greengenes v13_5数据库的一个已知限制,我们在原始研究中已经提到了这个问题(
5)。
| 流程 |
区域 |
ASV数量 |
真阳性 |
假阳性 |
假阴性 |
灵敏度 |
精确度 |
F1分数 |
| IR |
IR |
不适用 |
7 |
1 |
1 |
0.875 |
0.875 |
| QIIME |
V2-9 |
65 |
7 |
1 |
1 |
0.875 |
0.875 |
| QIIME |
V2 |
21 |
7 |
0 |
1 |
0.875 |
1 |
0.933 |
| QIIME |
V3 |
14 |
5 |
0 |
3 |
0.625 |
1 |
0.769 |
| QIIME |
V4 |
8 |
6 |
0 |
2 |
0.75 |
1 |
0.857 |
| QIIME |
V6-7 |
10 |
5 |
0 |
3 |
0.625 |
1 |
0.769 |
| QIIME |
V8 |
16 |
5 |
0 |
3 |
0.625 |
1 |
0.769 |
| QIIME |
V9 |
3 |
1 |
0 |
7 |
0.125 |
1 |
0.222 |
表1 QIIME2和IR流程在模拟社区上的比较性能
| 流程 |
区域 |
ASV数量 |
真阳性 |
假阳性 |
假阴性 |
灵敏度 |
精确度 |
F1分数 |
| IR |
IR |
不适用 |
7 |
1 |
1 |
0.875 |
0.875 |
| QIIME |
V2-9 |
65 |
7 |
1 |
1 |
0.875 |
0.875 |
| QIIME |
V2 |
21 |
7 |
0 |
1 |
0.875 |
1 |
0.933 |
| QIIME |
V3 |
14 |
5 |
0 |
3 |
0.625 |
1 |
0.769 |
| QIIME |
V4 |
8 |
6 |
0 |
2 |
0.75 |
1 |
0.857 |
| QIIME |
V6-7 |
10 |
5 |
0 |
3 |
0.625 |
1 |
0.769 |
| QIIME |
V8 |
16 |
5 |
0 |
3 |
0.625 |
1 |
0.769 |
| QIIME |
V9 |
3 |
1 |
0 |
7 |
0.125 |
1 |
0.222 |
a
指标是在已知组成的ZymoBIOMICS模拟社区基础上,在属级别计算的。真阳性(TP):正确识别的属;假阳性(FP):错误识别的属;假阴性(FN):遗漏的预期属。灵敏度 = TP/(TP+FN);精确度 = TP/(TP+FP)。F1分数是灵敏度和精确度的调和平均值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号