访谈后记——PacBio完成大型基因组测序项目例证(下篇)

【字体: 时间:2014年04月04日 来源:生物通

编辑推荐:

  自《全球访谈纪要:PacBio RS第三代单分子测序系统》专题发布以来,不断有读者来电来函参与讨论,其中讨论较多的一条是,PacBio技术是否只在微生物领域才能发挥得淋漓尽致,换句话说,是否应用到大型基因组测序项目中就大打折扣。本期笔者将通过几个大型基因组测序项目的案例分析形式,以自己粗浅的知识和检索概括,就该问题展开白话式的剖析。

例证一:北冰洋鳕鱼

挪威Oslo大学生态和进化合成中心(CEES)的科研人员用PacBio技术完成了北冰洋鳕鱼基因组的拼接工作。北冰洋鳕鱼是挪威和其他北欧渔业国家非常重要的经济物种,挪威政府一直以来不断支持鳕鱼基因组的测序工作,期望能从中找到关键基因,以提高鳕鱼养殖业的抗病和高产能力。

鳕鱼基因组(830 Mb)测序项目启动于2008年,由CEES的科学家牵头,早期投入是在454平台上用shotgun和mate-pair测序以及基于BAC的Sanger测序法,但早期组装结果非常不理想,Contig十万个以上,Scaffold上千个,平均每个Scaffold中35%都是Gap,这给Annotation带来了极大挑战,科研人员不得不从棘鱼等其他鱼类的基因信息中获取参考,来重建鳕鱼基因组中丢失的部分,才算发表出了史上第一个北冰洋鳕鱼的基因组Draft。

CEES的科研工作者一直想找个法子优化并升级Draft,尤其是当他们对野生捕获的鳕鱼进行基因组测序并遭遇到杂合性问题时。相比较之前的Draft,野生鳕鱼的基因组中除了SNP不同之外,还出现了大量的几百甚至几千bp的插入和缺失,而且还有大量不同的STR,很难跟Draft进行比对。如果不能拿到Finishing Genome,之前花大量时间和精力拿到的Draft就等于形同虚设了,于是他们被迫选择了PacBio第三代测序。“当我们把PacBio数据导入到之前的Draft中去后,大片段甚至是Kb以上级别的Gap就神奇地消失了,我们之前几年的辛苦在这里瞬间完成了,我们遇到的STR和杂合性问题也迎刃而解了。…我们之前从没见过如此之快的组装速度,全程才用了36小时。”参与项目的 Lex Nederbragt教授说道。目前他们正用PacBio数据逐步逐步修复之前靠棘鱼等基因数据拼凑的组装信息,然后全面展开鳕鱼基因组比较研究和抗病基因筛选。

例证二:大型厌氧真菌

Oklahoma州立大学和Oklahoma大学的科学家联手研究独黑粉菌基因组,该真菌以厌氧状态寄生在大型家畜的胃肠道中,负责降解植物类材质,该研究有望揭示并合理利用降解功能基因,最终发表在ASM journal Applied and Environmental Microbiology,标题为The Genome of the Anaerobic Fungus Orpinomyces sp. Strain C1A Reveals the Unique Evolutionary History of a Remarkable Plant Biomass Degrader。经分离的C1A菌株拥有大型真菌基因组,超过100Mb,共16000个以上的编码基因。这项研究的难点是,C1A菌株的GC含量超低,仅17%,可以说是他们见过的GC含量最低的物种。不仅如此,这个菌株还有一个非常罕见的特征,即基因间的非编码区域非常大,占据了73%,里面大量SSR,占整个基因组5%的比例,可以说是他们见过的最复杂的真菌。

了解PacBio RS II测序仪的更多信息

研究人员最开始基于Illumina的Paired-End技术,测了290X覆盖度,但组装效果非常糟糕,Contig数为82325个,N50仅为1666bp,而且其中32.4%都是长度仅300-900的短Contig,于是他们只好加测了10X覆盖度的PacBio数据,最终使QV值达到59.7,即准确率接近99.9999%。“最终的组装结果使N50/N90获得了不可思议的提升,特别是发现了大量之前在Illumina结果中丢失的内含子信息,其中主要都是SSR。”参与研究的 Mostafa Elshaheda教授说道。

有了接近完整图的基因组信息后,研究人员进行了下一步的功能性研究。他们发现C1A菌株是个令人非常震惊的生物降解器,对植物材质的适用性非常广泛,比如对柳枝、 玉米秸、 苜蓿等这些性质不同的植物都可以降解,几乎所有他们尝试的植物都可以适用,这一特点使得C1A有望应用到生物燃料生产中去。
 
例证三:小麦转录本

Rutgers大学和伦敦国王大学的科学家应用PacBio技术在10株小麦中比较测序了全转录组,文章发表在Gene杂志,标题为PacBio sequencing of gene families — A case study with wheat gluten genes。

研究人员认为,传统的全转录本cDNA研究不适于研究不同品系间的Orthologous Gene Copy,因为这通常需要从各个品系的整个基因组上获得定位信息,无论从成本、时间和人力投入上都不切实际,然而如果采取特定基因的比较转录本研究就不需要全程重测序。很显然,短读长的NGS技术尽管解决了成本问题,但读长太短拼接容易出现偏差,技术瓶颈尤其出现在对重复序列的重新定位上,稍有不慎就会产生嵌合结果,但PacBio的长读长技术就可以轻松应对,而且就目前通量而言也是可以满足的。

研究人员从全球搜集了10株不同品系的小麦,专门针对小麦面筋蛋白基因设计了Barcode PCR引物,在一个SMRT Cell就完成了比较转录本测序,平均读长3050 bp,共33000条一致性高精度Reads进入后续分析。他们专门挑选了其中一个品系中国早稻,与NCBI数据库中已有的同品系进行比较,发现吻合度极高,证明这个方法真实有效。同时长读长高覆盖数据已很好地回避了不同品系间拼接时的错误嵌合现象,这在短读长测序时期是不可想象的。

“我们认为,基于PacBio长读长无需拼接的技术,比较转录本方法高效、高精度、低成本地解决了不同品系间的基因表达分析和筛选工作,特别适用于那些还未经测序或者仅有Draft的场合。经筛选获得有价值的信息后,可以进一步对感兴趣的品系进行彻底的基因组分析。”参与研究的Wei Zhang教授提到。

了解PacBio RS II测序仪的更多信息

延伸阅读:

访谈后记——PacBio完成大型基因组测序项目例证(上篇)

全球访谈纪要:PacBio RS第三代单分子测序系统

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号