PacBio RS第三代单分子测序系统全球访谈纪要（一）[心得点评]

主题一：PacBio单分子实时测序技术存在的价值

【字体：大中小】 时间：2012年12月05日 来源：生物通

编辑推荐：

　　第三代单分子测序技术还值得继续关注吗？当然！PacBio最新升级的商品化试剂使得用户平均测序读长达到了前所未有的5000bp!PacBio单分子实时测序到底怎么样？生物通就几个广受关注的主题征询收集了众多声名赫赫的PacBio用户的心得意见，以用户现身说法的方式，“原汁原味”为您呈上这一第三代单分子测序系统全球访谈纪要系列报道。

序

第三代单分子测序概念一经提出，就在全球范围内引起了巨大反响，被誉为“未来测序应用的基准线”。然而，几年过去了，这一类创新的技术并未如预期般攻城略地得到普及，反而有点“出师未捷”的味道——Helicos已申请破产保护，Complete Genomics难逃被收购的命运，Oxford Nanopore虽然呼声很高，但宛若空中楼阁迟迟不见现身。唯有PacBio还在奋力前行。单分子测序技术还值得继续关注吗？

当然！PacBio最新升级的商品化试剂使得用户平均测序读长达到了前所未有的5000bp! 堪称测序史的又一个新里程碑！

新技术有多好？谁用谁知道。内行看门道。生物通就几个广受关注的主题征询收集了众多声名赫赫的PacBio用户的心得和经验之谈，以用户现身说法的方式，“原汁原味”为您呈上这一第三代单分子测序系统全球访谈纪要系列报道。这些实力雄厚的用户，个个成绩斐然，堪称权威，手头拥有的各种最新型号第一代第二代测序仪可以排成行，绝对经验丰富，目光犀利，他们的宝贵心得，不可错过！

发明人 Stephen Turner 发明人 Jonas Korlach

主题一：PacBio单分子实时测序技术存在的价值

Broad研究院把PacBio RS系统作为基因分型验证的首选工具

Mauricio Carneiro：

Broad研究院之前在系统误差纠错过程中吃了很多亏，二代测序数据尤其容易在高GC和同聚物的区域出现层出不穷的错误，而这些错误对付起来非常棘手，我们无法简单地通过数学模型来解读。

“而随机误差就完全不是一回事，任何仪器如果只有随机误差，那反而显得太棒了、太完美了，因为多测几次或者提高覆盖度就可以把随机错误稀释掉。所以当其他人被PacBio的原始高错误率吓退的时候，我反而毫无顾虑。”

目前研究人员对于突变数据的验证一般采用Sequenom质谱、Sanger测序法。虽然这两种方法的准确性很高，但是Sequenom方法对未知位点突变无法进行检测，且很多分析仍然需要借助人工方法，而Sanger测序法通量低、花费大且同样存在人工误差的问题。此外采用多种测序平台进行交叉验证也大大降低了效率，且产生新的突变类型导致更加复杂的分析。所以，最好是利用已有的测序平台直接产生高质量的测序数据，最大程度避免其他方法的交叉验证。“基于这些考虑，我们对PacBio给予了厚望。随着项目进展，现在它已经成为我们的标准工具。”

我们从千人基因组计划产生的SNP数据中挑选了98个已经用其他方法验证过的难测SNP位点，尽管之前没人知道为什么这些位点那么难测，“但事实就是，这些位点在一般其他的测序仪上测的话总是一如既往地出错”，所以这些位点就成了测试测序仪性能的标准。我们分别利用PacBio平台和Illumina MiSeq平台进行对比验证，结果发现PacBio数据有着更好的准确性和假阳性检出率，相对而言是一种更为有效的验证工具。

在认为PacBio比MiSeq有效之前，我们发现PacBio数据中存在相当程度的参考偏好性（Reference Bias）。“这个参考偏好性后来发现是我们人为导致的。当我们把PacBio数据与参考序列进行程序比对时，因为随机误差中大部分都是插入导致，程序纠错过程就特别倾向于去反转插入误差，这里面就可能把真实存在的SNP误解为插入误差给‘纠正’了，结果反而掩盖了真实检出的SNP。” 我们发现这一现象后修正了的算法,最近将心得都整理了一下，发布了beta版HapltoytpeCaller作为补充算法，并整合到GATK基因组分析工具包中。

注：详情请见参考文献4、参考影像1 & 3。此外，Sanger研究院在2012年7月刊的BMC Genomics上也发表了新一代测序技术的评测文章，正好比Broad研究院的文章早一个月，根据Sanger的结果PacBio只能检测出71%的SNP。Sanger当时使用的试剂版本是C1（Broad用的是升级后的C2），他们在建库实验过程和数据分析设置中也出现了些问题。看到Broad这篇文章发表后，双方也有技术交流，之后Sanger研究院的Paul Coupland 8月专程到PacBio的总部Menlo Park去访问,观摩研讨如何优化实验方案。

如何正确看待错误率和测序数据质量

Michael Schatz：

开始的时候我们曾对PacBio公布的单分子测序相对的高错误率也表示过担忧，但等弄明白这个是随机错误的时候，我们便释然了。“对于一个精通算法的信息学高手而言，随机错误里的世界完全不同于系统性误差，随机错误是相对比较容易用概率算法进行修正的，但修复系统性误差就不是统计学能够解决的范畴了。”我们开发的算法“将PacBio错误率从15%减少为不到千分之一”，而且我们把这个算法以开放源代码的形式发布到万维网上，让任何人都可以使用它。

“短读长测序的优点是得到高质量的深度覆盖，然而，它的缺陷也很明显，比如无法对高重复区域和单倍体型或杂合子序列等这些复杂区域进行测序。”其结果是，很多具有重要生物学功能的序列（比如某些特定基因和启动子区域），用基于短读长的二代测序法只能给出大量支离破碎的片段。“短读长局限同时还给其他诸如全转录组测序（包含可变剪切信息）和宏基因组测序（基于16S核糖体RNA基因测序）等项目中的计算解析带来困难，甚至有时候根本无法进展下去。”

注：详情请见参考文献1、参考影像5。

Tim Hunkapiller：

“数据质量是个相对的概念。在我看来，PacBio产出的10 Kb读长数据所包含的信息量要远远超过Illumina产出的200 bp的读长数据，况且在微生物基因组测序应用中，PacBio明显更能胜任，还能做碱基修饰的动力学分析，这些都是有目共睹的。另外，从原理上来看，Illumina的读长永远无法超越PacBio，正如它的准确性也永远无法超越CE一样。所以，懂PacBio的人总是更看重其读长优势，而非拘泥于单分子测序的错误率，正所谓瑕不掩瑜。”

“再谈错误率，其实这方面业内已慢慢达成共识，Illumina产生的错误率是系统误差，而PacBio是随机的。随机即意味着它可以通过增加次数来抹平误差，何况PacBio的CCS环形比对模式已经在很大程度上可以自行纠错，如果不计投入，最终达到的数据质量将超过Illumina。”

David Munroe：

“这是一个渐进的过程，人们需要时间慢慢习惯三代测序的数据产出形式，以及安装合适的软件来分析它。”

Adam Phillippy：

“第三代测序仪正在生成一种全新类型的测序数据。过去5年或更长时间以来算法开发几乎完全集中于高通量、高准确度的短读长数据。将软件开发过程转向另一个新焦点还需要相当长的时间。”所以我们这个算法的诞生可以认为是朝着这一正确方向迈出了重要的一步。

“从454 和 Illumina技术引入到被广泛接受，并将Sanger测序推至小角色之前，也存在相似的两至三年的滞后。”一旦这些障碍被克服，第三代测序技术将使研究人员能够深入了解其他不容易用第二代测序技术研究的大型结构变异相关的疾病，例如癌症、自闭症和染色体疾病等。长读长单分子测序也可以揭示对包含在基因组中的Junk DNA的认识，这些Junk DNA被认为起着重要的调控作用，但由于无法正确组装而没有得到广泛研究。

“我期望第二代和第三代技术将可以和平共存直至产生另一个巨变。”

拥有高质量参考基因组和缺口修复工作的重要性

Michael Schatz：

“事实上，当今大量的测序项目集中在人类基因组重测序项目或者其他类似研究，这些项目有参考基因组存在，因此使用Illumina的短读长数据就可以完成了。但当你手头上没有参考基因组，或者你正好对大片段结构变异比较感兴趣，抑或你必须要拿到一个高质量的完整基因组图，比如在司法鉴定场合需要获得每个碱基的详尽信息，那么三代长读长数据就显得不可或缺了。”

Lance Price：

我们目前遇到的最大瓶颈是，我们太需要完整的基因图谱了，在家畜流行病领域尤为如此。“我们需要一个足够强大、数据足够丰富的参考基因组系列，最好是全封闭的基因图谱，任何的缺失都可能让我们丢掉关键的信息，这样我们才能把现有工作获得的草图和参考序列进行精细的对比分析，才能真正揭示家畜流行病的历史渊源。”现在兴起的第三代单分子测序对我们而言的确是一个契机，依靠长度长数据去填充或矫正早期的参考序列，同时也能完善我们现有的家畜个体基因组草图。“听上去很美好，这样我们的工作才有意义，家畜流行病进化史才更真实，更容易预测未来的发展轨迹。”

Dave Rasko：

“高质量的参考基因组信息无疑是重要的，它能真正告诉你什么是真什么是假。”15-20年间我们在这方面做了很多努力，测了大量的微生物基因组，“然而真正我们能称之高质量的并不多，而且可以说很少”。我们过去一味强调单次数据质量，而二代测序确实可以提供短读长方面的高质量数据质量，但这跟最终的高质量参考基因组图谱是两个概念。“再好的数据质量，如果换来的只是Scaffold，遗留大量Gap的话，我们至少现在认为并不可取，所以我们现在开始倾向于牺牲一部分的数据质量，去换取高质量的参考图谱，这样在今后的工作，这些高质量的图谱可以帮我们以高通量的模式对单次测序结果去伪存真。”

“我们现在就是把二代和三代测序结合起来用，用Illumina数据提供高覆盖度，用PacBio数据提供长读长，然后混合拼接，基本上就可以拿到越来越符合我们要求的高质量图谱了。”

Richard Gibbs：

就目前的数据来说，各种已测序物种的基因组中缺口所占的百分比从1.3%至13%不等，这是由于NGS生成的片段过短，无法跨越高度重复和高GC含量的基因组区域。“大量的基因组空白区域中可能存在重要的生物学信息，如果无法补齐Gap，不仅不能获得完整的基因图谱，还会给后续的关键信息解读造成很大的困难。”目前人们主要使用步进PCR结合Sanger测序或者Illumina/454 Pair-end测序数据来填充空白区域，但是这些方法费时费力、成本高、填充效率低，无法从根本上解决问题。

Adam English：

我们团队另辟蹊径，利用PacBio单分子测序和长读长数据对模式生物的基因组草图进行升级。“我们的目标是准确、自动化、快速且可重复的进行基因组升级。”此外，我们还专门开发了高度自动化的工具PBJelly，能够将PacBio长片段与基因组草图进行比对，填补或减少草图中的缺口，从而完善基因组草图。

“目前我们对两个果蝇种、虎皮鹦鹉、白眉猴的基因草图组进行了升级，测序深度从4X到24X不等，其中果蝇基因组Gap数减少了15倍，虎皮鹦鹉和白眉猴的基因组Gap数减少了1.3至2.8倍，且这些基因组的Gap大小也减少了3-6倍。”提高测序深度还有进一步提高Gap填补效率的空间。

注：详情请见参考文献2、参考影像2。

PacBio在揭示德国大肠杆菌疫情爆发菌株中的突出作用

Eric Schadt：

“从样本制备到测序结果，平均只需8小时，平均读长为2,900 bp，而最长的读长达到7,800 bp，再结合CCS环形一致序列测序模式，实现了非常高的单分子准确性，最后完整拼接。在此项目证实了PacBio在复杂微生物病原体的de novo测序的能力，以及在多个基因组快速测序上的威力，这些有助于阐明病原体微生物的进化史。”

注: 详情请见参考文献3、参考影像4。

Karen Krogfelt：

在PacBio之前，还没有哪一种测序方法可以在8个小时之内完成一个基因组测序，后续的拼接与分析也非常迅速，从拿到样本到文章发表只用了2个月时间，令业内为之震惊。我不是否认其他测序方法无法完成这项工作，只是那些方法花费大、耗时长，不太适合作为传染病爆发时对病原体的快速监测和分析。

“PacBio不仅反应迅速，而且提供的这些高质量的数据将更便利科学家去揭示致病菌株的其他深层次信息。这种病原体的全面进化分析将协助鉴定出抗生素耐药性的标志物，以便在未来出现相关菌株导致疾病暴发时及时应对。”

Dave Rasko：

“多菌株测序数据分析显著深化了人们对这个新型致死大肠杆菌菌株的科学认识，并掀开了深入探索其进化起源和致病性起源的新篇章。”

“这一结果是迄今为止提供的最为完整的爆发菌株的基因组谱图，同时也强调了DNA测序对疫情研究的突出贡献，唯有一套完整的测序方案才能深刻认识细菌基因组可塑性的程度，从而知道它以何种方式促成新型病原体的出现。”

PacBio RS系统全球用户总评

Michael Hunkapiller：

“自2011年4月至今，全球已拥有70多套PacBio RS系统正式进入客户端运行。”

Nick Bergman：

“PacBio RS系统是NBACC测序项目的重大扩展，其长读长和通量灵活性为我们鉴定微生物病原体提供了很多新的选择。我们非常激动能在多个应用中率先使用它。”

Harold Swerdlow：

“过去我常常建议人们买什么样的测序仪合适，但现在我也开始纠结了。这完全决定于你想拿它干什么——市面上的测序仪都各有千秋，各有独门绝技。”

对于大的测序中心而言，只要新的测序技术出来，我们的反应就很直截了当，那就是“买下来赶紧试”。“我们倾向于测试绝大部分上市的测序仪，只要有理由相信新参数能带来一定程度的技术革新。”

“为了维持基因组学的前沿地位，我们探索基因组测序中的新机会。我们计划使用PacBio来改善病原体的de novo拼接，并提高一些物种的序列信息覆盖度，在未来，我们将通过甲基化位点的直接检测来探索表观遗传学。”

Eddy Rubin：

“我们的重点之一是de novo测序，用de novo测序的方法解析我们之前不了解的基因组，如宏基因组、真菌、植物等，长读长将是一个极大优势，因此PacBio对我们的确有帮助。”

“我们能够用Illumina更经济地开展多个应用，在多个长读长应用中我们将使用PacBio平台，在这之前我们使用罗氏454的测序技术，但现在我们希望能够用PacBio做之前454所做的许多事情。”

W. Richard McCombie：

“我们非常看重PacBio长读长在多个项目中的价值，这些项目包括了解人类基因组中的结构变异，以及植物基因组的de novo测序。”

Brewster Kingham：

“2011年9月我们投入安装了PacBio RS系统，我想，我们这的应该是全球第25台吧。我们用PacBio测病毒、细菌以及真核样品，我们也有一些基因组测序项目，比如用于海洋微生物的宏基因组。”

PacBio最适合的场合，主要在de novo测序或配合二代数据组装、碱基修饰直接识别、以及应用于靶向重测序中发现稀有突变、SNP、结构性变异（大片段插入或缺失）、单倍体型等等。“当然，我们的兴趣主要在宏基因组分析，单分子测序无需扩增，理论上就可以把环境中的任何微生物种群准确无误地鉴定出来。目前而言我们还是先从扩增开始，但我们正想往无需扩增的道路迈进。”

“C1和C2试剂我们都尝试过，C2太棒了，我敢说，和C1相比简直是‘白天与黑夜’的区别。”以前可能还有人对PacBio或者第三代测序持怀疑态度，C2的推出，可以在一定程度上逆转这样的逻辑。“我们用C2获得了4000 bp的平均读长，每个SMRT Cell的数据产出达到300 M，这比PacBio的官方数据还要好，我们没理由不满意。就连样品起始量也有所改进，比如我们现在可以尝试从500 ng做起。”

“错误率高？！我并不这么认为。起码我们的平均读长达到了4000 bp，以16S 核糖体扩增子测序为例，我们主要通过CCS环形比对测序模式，基因长度在600-700 bp，可以在单分子测序状态下实现4-6个Reads。覆盖度一提高，单分子的正确率就大大提高了。”还是同一个例子，我们测试的结果是，“2X覆盖对应的正确率为97%，3X为98%，如果采用5X以上，正确率就可以突破99%”。

“人们总是很喜欢拿第三代测序数据和第二代甚至第一代进行比较，但我认为，这实在不公平，三个阶段的数据类型完全不是一个概念。”你可以选择在Sanger、Illuminated和PacBio之间进行对比，甚至可以在每兆碱基多少费用的问题上纠缠不清。但不要忘了，我们从来不否认：Sanger法的超强精确性，尽管它目前是最昂贵的；Illumina是便宜，但读长太短，准确性也不比Sanger法高；PacBio可以将你引入单分子测序的境界，你的最大好处是可以获得4000 bp的平均读长，错误率总体看是随机的。“我只能说，任何东西都有缺陷，取决于你怎么去用好它。”

谈到测序费用，实际操作下来，对完成整个项目从测序、拼接、精细图、甚至到完整图，PacBio和Illumina结合起来的耗费最节约。

欢迎索取PacBio RS系统的最新资料

参考文献

1. Hybrid error correction and de novo assembly of single-molecule sequencing reads. Koren S, Schatz MC, Walenz BP, Martin J, Howard JT, Ganapathy G, Wang Z, Rasko DA, McCombie WR, Jarvis ED, Adam M Phillippy. Nat Biotechnol. 2012 Jul 1;30(7):693-700.
http://www.nature.com/nbt/journal/v30/n7/full/nbt.2280.html

2. Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology. English AC, Richards S, Han Y, Wang M, Vee V, Qu J, Qin X, Muzny DM, Reid JG, Worley KC, Gibbs RA. PLoS One. 2012;7(11):e47768.
http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0047768)

3. Origins of the E. coli strain causing an outbreak of hemolytic-uremic syndrome in Germany. Rasko DA, Webster DR, Sahl JW, Bashir A, Boisen N, Scheutz F, Paxinos EE, Sebra R, Chin CS, Iliopoulos D, Klammer A, Peluso P, Lee L, Kislyuk AO, Bullard J, Kasarskis A, Wang S, Eid J, Rank D, Redman JC, Steyert SR, Frimodt-M?ller J, Struve C, Petersen AM, Krogfelt KA, Nataro JP, Schadt EE, Waldor MK. N Engl J Med. 2011 Aug 25;365(8):709-17.
http://www.nejm.org/doi/full/10.1056/NEJMoa1106920

4. Pacific biosciences sequencing technology for genotyping and variation discovery in human data. Carneiro MO, Russ C, Ross MG, Gabriel SB, Nusbaum C, DePristo MA. BMC Genomics. 2012 Aug 5;13:375.
http://www.biomedcentral.com/1471-2164/13/375

参考影像
1. PacBio AGBT 2012 Carneiro
2. PacBio AGBT 2012 English
3. PacBio AGBT 2012 Testimonial Carneiro
4. Webinar: The Role of Adenine Methylation in Determining the Pathogenicity of a Bacteria, Eric Schadt (Mt. Sinai School of Medicine)
5. Webinar: Mike Schatz (CSHL) - Error Correction and De Novo Assembly of Complex Genomes.

主题二：PacBio RS系统在de novo测序中的优势