利用PacBio测序检测与胶质母细胞瘤相关但之前无法确定的结构变异

【字体: 时间:2017年06月05日 来源:生物通

编辑推荐:

  为了改善胶质母细胞瘤的基因组DNA样品的结构变异检测,金唯智在PacBio Sequel平台上对人类样品进行了全基因组测序分析,成功鉴定出近20,000个之前无法确定的结构变异。

胶质母细胞瘤(glioblastoma)是一种毁灭性的疾病,往往在晚期诊断出,进展快速,且生存率低。结构变异(SV)以及基因融合(包括那些涉及EGFR(表皮生长因子受体)的融合在内),通常是疾病发展的驱动因素,因此也成为受人关注的治疗靶点。

考虑到成本效益,基因组图谱的绘制——例如癌症基因组图谱计划(Cancer Genome Atlas)所开展的工作,在很大程度上依赖于短读长测序技术。人们担心,高达19%的遗传疾病基因不能通过短读长测序的方法进行充分测序,并且短读长测序经常检测不到插入/缺失(INDEL)和大的结构变异。假阴性结果的风险则源于短读长测序引入了PCR偏倚、不能均匀覆盖富含GC序列,以及短读长的测序和比对在基因组的重复区域所存在的困难。

长读长测序技术,如PacBio® Sequel™测序,绕过了这些难题,让科学家能获得无偏倚、更完整的基因组视图。此外,通过PacBio Sequel平台发表的信息表明,在鉴定结构变异上,低覆盖度的PacBio测序比高覆盖度的Illumina测序更有效得多。同时,PacBio Sequel单分子实时(SMRT)技术不断发展,与过去的RSII技术相比通量更高,起始量要求更低,周转时间更短,并且成本更低,让这些类型的项目更容易实现。

根据上述信息,并按照我们客户项目的目标——改善胶质母细胞瘤的基因组DNA样品的结构变异检测,金唯智在PacBio Sequel平台上对人类样品进行了全基因组测序分析,成功鉴定出近20,000个之前无法确定的结构变异。

PacBio Sequel测序生成了几十万条长序列

我们总共利用37个Sequel SMRT cell对精心制备的SMRTbell™ 文库进行测序(详见方法部分),每个SMRT cell平均生成5.7 Gb的数据和496,040条聚合酶序列。读长分布是PacBio测序特有的,平均聚合酶读长为11.5 kb,而N50为17.8 kb(图1)。对于不同的文库和SMRT cell,产量高度一致,且最长的聚合酶序列超过52 kb。

图1:聚合酶读长和插入片段大小分布
A. 单个SMRT cell典型的读长分布。
B. 在37个SMRT cell上测序的读长和插入片段大小指标,表明产量高度重复。

高度准确的一致序列的生成

PacBio错误图谱是很有特色的,序列特异性偏倚很少或没有,这带来了高度准确的测序结果,其准确性超过99.999%(QV50)(图2)。这个项目的目标是鉴定大的结构变异,而不是单核苷酸变异。因此,考虑到成本效益,客户选择了低覆盖度的选项。

图2:PacBio的准确性
A. PacBio Sequel测序的原始准确性是通过将序列与参考基因组比对而评估的。平均single-pass准确性达到81.95%,其范围在~70-90%。
B. 由于PacBio没有序列特异的错误偏倚,故只需要提高覆盖度就能实现高度准确的组装(图片由PacBio提供8)。

大约20,000个结构变异的鉴定

使用SMRT Link 3.1.1中的pbalign和Arrow将每个样品的序列与人类参考进行比对。整个基因组的覆盖度相对平均分布,而平均覆盖度为9.0倍。

最近一项直接比较短读长和长读长技术的研究表明,PacBio测序在检测大小在7 bp至1 kb的变异上灵敏度高了5倍3。因此,所有≥ 7 bp的变异都被过滤和注释。以001号个体为例,检测到超过461 kb的序列差异,由19,224个变异所编码。在基因组的基因和基因间区域都检测到各种类型的变异,包括已知基因的编码区和非编码区(图3A)。除了在所有个体中检测到kb大小的插入和缺失,一段大的纯合缺失也被检测到,涉及到所分析的部分基因组中的一条染色体(图3B)。

图3:001号个体中结构变异的鉴定
A. 变异经过注释,并根据大小≥ 7 bp的INDEL数量作图。
B. 在一条染色体上检测到大的纯合缺失。

结论

这些研究强调了长读长在鉴定结构变异上的价值,否则短读长技术可能错过。如上文所述,结构变异往往是疾病进展的驱动因素,因此清楚了解其在患者样品中的存在将有助于更好地了解复杂疾病。本文提供的信息可供客户进一步分析。

获得一份高质量且完整的基因组视图,不仅仅对这里提及的肿瘤学研究很重要,也对众多领域有意义,包括作物开发、进化/比较生物学,以及传染病的鉴定。PacBio Sequel仪器的产量是PacBio RSII仪器的7倍,且项目周转时间更快,将PacBio测序的优势扩展到大型和小型的复杂基因组研究,而这在过去的RSII技术来说往往成本太高。

未来应用

PacBio技术不断的改进,如增加读长、每个SMRT cell生成更多数据以及提高原始序列准确性,将为PacBio的其他广泛应用带来许多好处,包括:

▪ 小型和大型基因组的测序和de novo组装
▪ 连续的长扩增子测序
▪ mRNA异构体测序(Iso-Seq)
▪ 靶向捕获测序
▪ DNA修饰分析,不需要亚硫酸氢盐处理

PacBio测序正在催生令人兴奋的研究,它带来新颖的研究成果,正影响到各个行业和领域。利用新的Sequel平台实现的高通量且经济的测序,将这些可能性扩展到比以往更多的科学家。

(原文由金唯智提供,生物通编译)

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号