禽致病性大肠杆菌基因组组装与注释方法的比较研究:揭示自动注释错误及其对非K12/B谱系菌株的影响
【字体:
大
中
小
】
时间:2025年10月01日
来源:Research in Microbiology 3.4
编辑推荐:
本研究针对禽致病性大肠杆菌(APEC)的基因组组装与注释方法进行了系统比较。研究人员利用Illumina短读长和Nanopore长读长测序技术,评估了SPAdes、CLC Genomic Workbench、Flye和Unicycler等组装工具的性能,并发现Unicycler在混合组装中表现更优。更重要的是,研究揭示了RAST和PROKKA注释工具分别存在2.1%和0.9%的错误注释率,这些错误主要涉及短编码序列(CDS)和移动遗传元件。该研究强调了在非K12或B谱系菌株中进行注释验证的重要性,对细菌基因组学研究具有重要指导意义。
在微生物学研究领域,获得高质量的完整基因组序列是进行准确注释、质粒鉴定、细菌克隆追踪以及现代细菌学研究的基石。虽然Illumina测序平台能以较低成本产生高精度(99.90-99.99%)的原始读长,并能提取多位点序列分型(MLST)、毒力相关基因(VAGs)预测、抗生素抗性基因(ARGs)等信息,但其产生的配对末端读长通常不超过250-300个碱基对,这使得完全闭合细菌基因组变得困难,往往留下多个不完整的连续序列(contigs)。这些碎片化的contigs可能阻碍确定VAGs和ARGs是位于染色体还是移动遗传元件上。另一个问题是缺乏对contig方向性以及结构重复区域和较大重排(如转座子、插入序列和遗传盒)注释方向性的了解。重复序列通常比Illumina读长的测序长度长,使得组装变得不可能。
长读长测序平台,如Pacific Biosciences(PacBio)和Oxford Nanopore Technologies(ONT),可以产生中位长度为10k bp、最高达100k bp的单DNA读长,因此可以极大地改进Illumina技术产生的序列在重复和其他复杂区域方面的准确性。尽管根据ONT的数据,使用新的R10.4.1流动槽和V14试剂盒,原始读长精度可达99.5%,但结合短读长测序的准确性和长读长测序的完整性的混合组装仍然为重建细菌基因组提供了最可靠和最具成本效益的方法。
在注释方面,两个最常用的流程是基于子系统技术的快速注释(RAST)和Prokka。RAST基于GLIMMER 3.0预测开放阅读框(ORFs),结合蛋白质家族"子系统"以及其他工具和迭代。GLIMMER 3.0基于插值马尔可夫模型(IMM)搜索,从终止密码子反向识别ORFs,然后向起始密码子回溯。通过使用位置权重矩阵优化核糖体结合位点,进一步优化了翻译起始位点的预测。Prokka使用Prodigal基于动态规划方法识别ORFs,优化起始和终止密码子的识别,利用核糖体结合位点预测、GC含量、六聚体分布以及过程的迭代。
本研究旨在调查组装和注释方法(RAST、Prokka)使用禽致病性大肠杆菌(APEC)菌株作为模型生物的影响。通过比较密切相关的菌株,识别了与RAST和Prokka相关的注释错误。
主要技术方法包括:从丹麦哥本哈根大学兽医与动物科学系提供的六株APEC菌株(代表ST95-PFGE65和ST131-PFGE47两个克隆)中提取DNA;使用Illumina MiSeq平台进行短读长测序(2×250 bp)和ONT MinION平台进行长读长测序;使用SPAdes和CLC Genomic Workbench进行短读长组装,使用Unicycler和Flye进行混合组装;使用QUAST和BUSCO评估组装质量;使用RAST和Prokka进行基因组注释;通过BLASTn比对和Clinker可视化进行注释错误验证。
对六株菌的测序数据显示,Illumina测序的平均读长为197.3 bp,ONT读长的平均长度为3909 bp。所有Illumina原始读长的覆盖深度均超过30×,平均为54×,而ONT覆盖范围从64×到平均94×。这些参数满足全基因组组装(WGS)的质量标准。使用QUAST和BUSCO测试了CLC Genomic Workbench和SPAdes的短读长组装性能以及Flye和Unicycler的混合组装性能。contigs数量在CLC Genomic Workbench和SPAdes之间无显著差异。对于混合组装,Unicycler在两个克隆中提供的contigs数量均低于Flye。NG50在SPAdes和CLC之间无显著差异,但Unicycler获得的NG50比Flye长。基因组的总体长度在CLC Genomics Workbench、SPAdes、Flye和Unicycler之间无显著差异。考虑到Unicycler在提供更少contigs数量和更高NG50值方面的表现,决定将其作为下游注释的最佳组装工具。
对RAST和Prokka的注释进行了比较。所有菌株中,两种注释方法预测的rRNA基因数量相同(n=22)。tRNA基因数量略有不同。Prokka在所有菌株中注释了一个tmRNA,而RAST没有注释。当使用RAST和Prokka注释时,混合组装基因组编码DNA序列(CDS)的数量不同。总体而言,Prokka注释的CDS比RAST少(187-327个)。RAST预测PFGE65-ST95克隆内的菌株相差88个CDS,PFGE47-ST131的菌株相差235个CDS。同时,Prokka预测PFGE65-ST95中有47个不同的CDS,PFGE47-ST131中有200个。
分析了RAST和Prokka注释CDS数量不同的原因。基于从RAST和Prokka生成的存在和缺失矩阵进行注释比较。令人惊讶的是,发现在完全相同DNA序列的菌株之间存在差异注释。对于PFGE65-ST95克隆菌株的RAST注释,在菌株之间注释不同的88个基因中,有71个在互补基因组中具有100%同一性,表明它们是错误注释。另外14个基因通过BLASTn至少在一个菌株中具有97%以上的同一性,由于该菌株不携带带有三个CDS的2312 bp质粒,因此在729_270514_x_12中留下三个真实的基因差异。
Prokka注释的PFGE65-ST95基因组序列中也存在类似的 problematic annotations,其中47个在三个PFGE65-ST95菌株中注释不同的基因中,有13个获得了100%同一性的匹配。另外32个基因获得了97%以上的同一性,一个基因获得了94.7%的同一性。这46个基因被认为是Prokka的错误注释。
在PFGE47-ST131中,通过RAST注释,在235个注释不同的基因中,有120个在未注释这些基因的全基因组序列中获得了100%同一性,并且以相同方式识别出三个具有98%以上同一性的基因差异。所有123个注释都被认为是错误的。98个真实的基因差异与被认为是质粒的contig 3有关,其中723_010814_2_1和723_220514_1_6携带一个6668-bp的ColRNAI相关质粒,而729_141114_1_15携带一个100,533-bp的Incl-1质粒。另外14个真实差异源于729_141114_1_15染色体中噬菌体相关的插入。
对于Prokka注释的PFGE47-ST131基因组序列,200个不同基因中有25个在未注释这些基因的互惠序列中获得了100%同一性,20个不同基因获得了97%以上的同一性。这45个注释被认为是错误的。与RAST注释类似,141个基因差异是由contig 3(独特的IncI-1质粒)上的不同基因引起的,14个注释差异与菌株729_141114_1_15染色体中的原噬菌体区域有关。
通过Clinker可视化了不准确注释基因及其侧翼区域的例子。尽管其他两个菌株在此区域具有相同的DNA序列,但neuO基因(多唾液酸O-乙酰转移酶)仅在菌株729_270514_x_12中被注释。在729_141114_1_15中,发现pdeL基因被重复注释为pdeL和pdeC,而其他两个菌株具有100%序列同一性。最后一个例子是在一个菌株中有两个转座酶ISCep1基因拷贝,而在菌株723_220514_1_6_s37和723_010814_2_1中仅注释了一个。比较的这些区域也具有100%序列同一性。
总体而言,RAST和PROKKA注释的CDS中分别有2.1%和0.9%是错误的。这些错误通常与较短长度(< 150 nt)的CDS相关,功能注释为转座酶、移动遗传元件或假设蛋白。这些估计仅基于注释之间的互惠差异,可能被低估,并且未包含在所有比较菌株中错误注释的CDS。
SPAdes和CLC Genomic Workbench在组装短读长的基准参数方面无显著差异。然而,对于混合组装,Unicycler比Flye提供更少的contigs数量和更高的NG50。在比较中,至少2.1%和0.9%的用RAST和PROKKA注释的基因是错误注释,强调了控制注释的重要性。这项调查表明,在DNA水平上密切相关的基因组菌株在具有相同DNA序列的局部区域注释上存在差异。这个问题在用最常用的注释程序RAST和Prokka时被识别。错误与用于预测ORFs的统计方法有关,其中上游或下游区域的差异可能会影响预测。
该研究的重要意义在于首次系统评估了APEC菌株基因组组装和注释方法的可靠性,明确指出当前自动化注释工具在非模式菌株(非K12或B谱系)中存在的显著错误率。研究发现混合组装工具Unicycler在contig数量和NG50指标上优于Flye,为细菌基因组组装提供了方法学参考。更重要的是,研究揭示了RAST和PROKKA分别存在2.1%和0.9%的错误注释,这些错误主要集中在短编码序列、转座酶和移动遗传元件区域,表明现有注释工具对非模式菌株的适应性有待提高。该成果发表于《Research in Microbiology》,为微生物基因组学研究提供了重要的质量控制和标准参考,建议在类似研究中必须进行注释验证,特别是在研究非K12或B谱系菌株时。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号