PacBio SMRT测序技术助力开启泛基因组研究新时代

【字体: 时间:2020年09月18日 来源:

编辑推荐:

  运用高准确度长读长的PacBio SMRT测序技术,是进行泛基因组研究的关键。

如今,泛基因组研究已然成为基因组研究领域新的热点。何为泛基因组,为何要进行泛基因组研究,在研究领域已达成了共识。越来越多的学者,已经意识到需要跳出NGS短读长数据的局限。运用高准确度长读长的PacBio SMRT测序技术,是进行泛基因组研究的关键。

什么是泛基因组(Pan-genome)?

泛基因组指的是同一物种中的全部基因,包括在所有个体中都存在的基因也叫做核心基因组(Core genome),以及在个体中特有的非必需基因组(Dispensable genome)。

为什么要做泛基因组的研究?

在物种进化过程中,每个物种都产生了极其丰富的遗传变异,单个个体的基因组并不能涵盖这个物种所有的遗传信息。或在研究同一物种的不同亚种或者变种中,以一个基因组为模板的分析不能全面的反应物种基因水平的全部遗传信息。所以,我们仅依靠一个参考基因组来进行相关研究,具有很大的缺陷性。比如物种的代表性种质资源相互之间差异较大,参考基因组不足以代表物种的所有基因信息,低深度的重测序获得的差异信息有限等。我们可以通过泛基因组测序分析核心基因和非核心基因的基本情况,获得更全面完整的变异位点信息,从特有基因序列的角度来研究物种内的差异,有利于理解物种形成的分子进化机制及其与自然选择的关系。

例1 原绿藻的遗传变异程度

2007年,麻省理工学院微生物学家Sallie Chisholm博士着手研究海洋原绿藻的遗传变异程度,早期的数据显示每个菌株包含大约2,000个基因,推断原绿藻的泛基因组大约包含6,000个左右的基因。然而经过8年的研究,在对45个菌株进行测序后,她认为至少有80,000个基因构成了原绿藻的泛基因组,这一数字大约是人类基因组中基因数量的4倍,而人类的核心基因组仅包含约1000个基因,在总基因库占比不到2%。

Sallie Chisholm博士认为泛基因组测序改变了我们对有机体的看法,并且泛基因组研究对捕捉遗传多样性至关重要。1

例2 玉米物种中的遗传多样性

玉米的基因组测序具有挑战性,因其2.3GB基因组中重复序列约为85%,且含有大量转座子。玉米的DNA组成也更具多样化,过去一项对两个自交系玉米的基因组研究表明,两者仅共享了一半的基因组序列,以及1/3的基因2。如上图所示,而人类与黑猩猩之间相比,这一共享的程度达到了94%。3

可见,正如Corteva Agriscience中心的比较基因组学负责人Kevin Fengler博士所说:“对于作物、植物而言,单一的参考基因组的整个概念已然过时,这是过去的局限性技术的产物。而现在,即使对于最大的农作物基因组,也能够快速生成高质量的参考基因组,我们可以轻松地从中获取相应的序列多样性以及结构变异的全部信息。”

为了获得玉米内部完整的序列多样性和结构变异,33名科学家利用PacBio测序技术,在今年发布了玉米泛基因组参考基因组,包含了由26个自交系玉米组成的全面、高质量的基因组组装结果4。这些数据包括了被广泛研究的玉米品系,以及含有异常10号染色体的特殊品系。这是为作物所创建的第一个泛基因组参考基因组,对玉米多样性及泛基因组的研究具有非常深远的意义。

例3 人类泛基因组的研究

GRCh38为目前人类最常见的参考基因组,其主要来源于一个人类个体的DNA,虽然至今仍在不断注释,但依然是一个不完整的序列。科学家预测,该单一的参考基因组中,至少缺少人类40 Mb的信息。所以将其作为人类基因多样性和基因变异的代表,具有极大的局限性。

此外,基因组序列的结果不代表人类基因组的二倍体结构。相反,它是不同单倍型的任意线性组合,或者是多个个体的镶嵌图。意味着该单一参考基因组不能区分二倍体单倍型的信息。5

而目前已经有大量的来自不同人种特异性参考基因组的研究成果采用了PacBio进行测序,从现有的数据看每个人基因组平均约有20,000个结构变异(SV),其中大多数属于重复元件和片段重复6。然而由于NGS读长短的问题,有大量变异未能被检测出来。因此,综合来看,原先的人参考基因组数据所体现的结果局限性较大。

为了要获得更加完整的人类参考基因,美国国家人类基因组研究所承诺投入3000万美元,用于建立一个新的人类泛基因组。通过对来自各人种的350个个体的高质量测序,以捕捉人类群体中的所有基因组变异7。可见人类泛基因组的研究,将对研究人类基因组本身起到更深远的作用。

如何构建物种的泛基因组?

泛基因组测序是运用高通量测序及生物信息分析手段,针对不同但又相互关联的个体材料进行低/高深度的测序及泛组装,构建泛基因组图谱,丰富该物种的遗传信息。

其选材多样,应用广泛,根据研究目的要求,选择代表性的材料,可以是种下不同骨干品种、亚种、生态型、品系,也可以是同科/属下不同近缘种,或者是更大的分类单元。

而构建Pan-genome的方法通常将将短的reads比对到已经注释的基因组上进而鉴定基因的存在-缺失变异(Presence-Absence Variation,PAV)。然而这种方法对于多拷贝基因的检测是有局限的,忽略了一些基因组的高度重复性和SVs的普遍性,极易出错8,9,也难以真正体现Pan-genome的核心所在。而通过诸如de novo assembly的方法,比对已经组装注释完成的基因组,进一步进行基因的PAVs分析,能够更大限度的了解基因组在结构上的变化,因此这种方法可以提供更加准确的构建泛基因组。

然而,高组装质量基因组的获得,通常需要以高深度测序为代价。而PacBio高准确度的HiFi reads及相关的组装方法,大大降低了实现高质量从头组装的成本,进而有利于未来的De novo assembly研究。

此外,泛基因组构建要点还包含①数据不要受到技术偏好性左右,以减少系统性的误差;②要采用高质量数据和组装方法,准确地反映样本个体的全基因组信息,即准确反映从SNP到SV。 PacBio HiFi reads符合上述要点,读长长且数据质量高,真正有助于组装,适用于泛基因组的测序研究。

关于HiFi reads更多详情了解:

在PrecisionFDA挑战赛中,PacBio HiFi Reads的表现优于其它测序技术

PacBio SMRT测序技术助力泛基因组研究

PacBio Sequel II测序提供更高的准确度、更大的通量、更低的成本、更长的读取读长,且运行灵活,非常适合无参物种的从头基因组测序,且长读取也有助于分析基因组中高度重复或同源的区域,适用于泛基因组的研究。

例4 大豆泛基因组研究


大豆图形结构泛基因组分析

2020年6月,Cell杂志刊登了由中国学者发表的有关大豆泛基因组的研究,首次以图形结构基因组(graph-based genome)的形式构建植物基因组10。

该文章对2898个大豆种质材料进行了深度重测序和群体结构分析,以26个最具代表性的种质作为重点,采用PacBio测序技术对它们进行了高质量的基因组从头组装和精确注释,平均contig N50达到了22.6 Mb,成功构建了基于图形结构的大豆泛基因组。通过基于基因组组装结果的系统性比较,发现结构变异在形状影响方面的重要作用。另一方面,该研究还鉴定到15个结构变异导致的不同基因间的融合事件,这也为新基因的产生研究提供了重要线索。

另外,泛基因组的构建,以及基于高质量基因组组装的系统分析,也从另一个角度为基因组重测序数据提供了一个新的分析平台,将原有的作物基因组学提升到一个新的高度。

参考文章

1.https://www.the-scientist.com/features/the-pangenome-are-single-reference-genomes-dead-32458

2.http://www.plantcell.org/content/17/2/343

3.https://www.scientificamerican.com/article/human-chimp-gene-gap-wide/

4.https://www.pacb.com/blog/maize-pangenome/

5.https://www.the-scientist.com/critic-at-large/diversify-our-human-genomic-data-66308

6.https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4317254/

7.https://www.pacb.com/blog/new-nhgri-human-pangenome-reference-initiative-will-use-highly-accurate-pacbio-sequencing/

8.Gan, Xiangchao, et al. "Multiple reference genomes and transcriptomes for Arabidopsis thaliana." Nature 477.7365 (2011): 419-423.

9.Zapata, Luis, et al. "Chromosome-level assembly of Arabidopsis thaliana Ler reveals the extent of translocation and inversion polymorphisms." Proceedings of the National Academy of Sciences 113.28 (2016): E4052-E4060.

10.Liu, Yucheng, et al. "Pan-genome of wild and cultivated soybeans." Cell 182.1 (2020): 162-176.

基因有限公司作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

PacBio HiFi reads

为了更好的向您推送PacBio SMRT测序技术的最新进展,基因有限公司开辟了相应的企业微信账号“PacBio HiFi reads”

长按并识别二维码添加“PacBio HiFi reads”为联系人,您将了解到有关高准确度长读长测序技术的最新进展,以及我们即将举办的线上线下活动。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号