错误率骤降98%!细菌完成图3.0怎么做到的?

【字体: 时间:2019年10月08日 来源:华大科技

编辑推荐:

  细菌基因组de novo是对细菌基因组测序后从头组装,并在组装的基础上,进行基因组组分分析、功能注释等分析。它是研究细菌进化遗传机制、关键功能基因的重要工具。细菌完成图(1 contig, 0 gap)是细菌基因组de novo组装追求的最高指标。

  

细菌基因组de novo是对细菌基因组测序后从头组装,并在组装的基础上,进行基因组组分分析、功能注释等分析。它是研究细菌进化遗传机制、关键功能基因的重要工具。细菌完成图(1 contig, 0 gap)是细菌基因组de novo组装追求的最高指标。

根据测序技术的发展,细菌完成图研究大致可以分为三个阶段:


图1 细菌完成图不同方法优劣势比较

细菌完成图1.0

细菌完成图1.0是以短读长测序为基础,一般构建构建500bp左右的小片段文库和mate-pair文库(2K、6K、10K等),采用短读长测序,并进行de novo组装。要组装得到完成图,往往还需要在此基础上增加辅助组装手段(如bionano),并进行PCR补洞。该方法耗时长,成本高(10万元级),很大程度上限制了细菌完成图的应用范围。

细菌完成图2.0

细菌完成图2.0基于PacBio平台进行组装,是目前比较常用的策略。PacBio平台的超长读长reads,使从业人员很容易组装得到细菌完成图,组装周期和成本都有很大程度的降低(万元级)。虽然PacBio平台单碱基准确度较低(只有85%左右),但因其测序是随机错误,官方认为当测序深度达到30X以上时,组装准确度可达到Q50水平。为了进一步提高组装准确度,可以用高质量的短读长数据进一步对PB组装结果进行纠错,得到准确度较高的细菌完成图。

细菌完成图3.0 beta

Nanopore平台测序读长更长,建库测序步骤简单成本更低,近年来受到越来越多关注。不过,其也存在缺点——组装准确度相对较低。如图2所示,Nanopore数据单独组装,平均准确度仅有Q25,加上短读长数据纠错,平均准确度依然只有Q29,组装错误率达1‰以上,远低于PacBio组装准确度。

PacBio和Nanopore的测序错误都以插入缺失为主。细菌基因组紧凑,编码基因中无内含子,直接用Nanopore序列组装会引入大量的移码突变,影响后续基因组功能研究。我们暂且称Nanopore直接组装得到的细菌完成图为细菌完成图3.0 beta。


图2 ONT平台和PB平台组装准确度比较[1]

细菌完成图3.0 beta组装准确度主要受以下两个因素影响:

1)Nanopore测序准确度低,原始数据碱基准确度约为80%,碱基错误不随机,自纠错后准确度仍难以达到较高水平。直接用Nanopore数据组装准确度较差。

2)Nanopore数据拆分识别单端barcode数据即可拆分,因但碱基错误率高,可能存在数据拆分错误的情况。如果直接用Nanopore数据组装,会引入序列污染。

目前这两个问题还未能有效解决。为了得到更高质量的ONT细菌完成图,细菌完成图3.0 beta常用的策略是先用ONT组装得到完成图,然后用短读长数据去纠错(类似于细菌完成图2.0组装策略)。这个过程会在一定程度上提高组装准确度,但质量提升有限(如图1所示,加了短读长数据纠错,组装准确度仅由原来的Q25提升到Q29);而且由于拆分错误引入的序列污染,无法通过纠错来避免。


图3 Nanopore细菌完整图组装示意图(Nanopore数据组装得到完成图,短读长数据纠错)

细菌完成图3.0

华大基因开发的细菌完成图3.0,可以有效避免上述两个因素引入的错误。华大基因采用BGISEQ和Nanopore数据联合组装的策略,不同于以往的联合组装,而是首先用高准确度的BGISEQ数据(Q30>80%)进行组装,得到高质量的细菌基因组骨架(contig),然后用Nanopore数据将高质量contig连接成完成图。

该策略组装得到的细菌完成图,准确度由BGISEQ数据的准确度决定,而且可以有效避免Nanopore数据拆分错误引入的序列污染。


图4 华大BGISEQ+Nanopore细菌完整图组装示意图(BGISEQ数据组装得到高质量框架图,Nanopore数据进一步提升组装指标得到完成图。)

细菌完成图3.0基因组准确度高,完整性好,成本更低,可作为细菌完成图研究的首选策略。

组装准确度高达Q47

组装准确度高达Q47(错误率0.02 ‰ ),错误率仅相当于原来的2%(nanopore组装短reads纠错,错误率在1‰左右)。

表1. 测试数据展示——BGISEQ+Nanopore组装准确度

*该样品与NCBI上的参考基因组可能不是同一菌株。

可得到完整基因组和质粒信息

细菌完成图3.0可以组装得到完整的基因组,并获得质粒信息(测试数据质粒组装完整度达到90%以上)。

表2. 测试数据展示——BGISEQ+Nanopore组装完整度

**未装出来的两个质粒在参考基因组中也未组装完整。

性价比高

华大基因Nanopore平台产出和数据质量菌达到Nanopore认证标准,并已取得Nanopore官方颁发的测序服务资格认证证书。每个cell可以满足24个细菌样本pooling建库测序,单样本成本低。具体价格可咨询当地科技代表。


图5 Nanopore认证证书

参考文献:

1. Wenger A M, Peluso P, Rowell W J, et al. Highly-accurate long-read sequencing improves variant detection and assembly of a human genome[J]. bioRxiv, 2019: 519025.

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号