做全长转录组遇上这5大难题?要趁早防备!

【字体: 时间:2020年09月23日 来源:华大科技

编辑推荐:

  现在,PacBio和ONT平台都可以进行全长单分子转录组测序研究,两个测序平台的性能也在逐年提高。全长转录组在很多方面有潜力完全取代短读长转录组,但是当前它仍有一些自身的不足和挑战。

RNA测序是科学研究的一个重要手段,从分子育种到疾病研究,从生长发育机制研究到药物筛选研发,RNA测序在各个领域都发挥着巨大作用。而全长转录组作为近两年RNA测序领域的新秀,受到众多科研学者的认可,相比短读长转录组测序,基于长读长的全长转录组可以达到Isoforms的精度,并可以更准确地检测可变剪切位点、转录起始位点和转录终止位点等。


图1 短读长转录组测序无法真实反应Isoforms情况[1]

如图所示,短序列无法获得全长转录组的信息,通过组装也很难获得端点的信息,因为短序列转录组测序往往无法涵盖到转录本的起始或是终止位点。而且如果一个转录本有两个相距1000bp的剪切位点,转录组短序列无法真实反应这种情况。

现在,PacBio和ONT平台都可以进行全长单分子转录组测序研究,两个测序平台的性能也在逐年提高。全长转录组在很多方面有潜力完全取代短读长转录组,但是当前它仍有一些自身的不足和挑战,下面这些是我们在做研究的过程中一定要知道的[1]。

对RNA完整性要求更高

PacBio和ONT平台可以测序到全长转录本的前提是RNA样本完整性好,没有发生断裂和降解,这个为RNA提取提出巨大挑战。因此,在提取过程中最好选择新鲜样本或迅速用液氮处理,避免反复冻存来保证RNA的完整性。

PacBio和ONT平台测序存在长度偏向性

PacBio和ONT平台都偏向测序短序列,如图2所示,这个问题不仅源于样本准备阶段,同时也来源于测序技术本身。

PacBio和ONT测序样本需要采用oligo-dT作为引物进行反转录,同时伴随着模板转换,PCR扩增获得足够的cDNA用于测序,在此过程中短的转录本更容易被扩增或者只扩增了长转录本的部分序列。虽然现在ONT平台可以直接测序RNA,但是这个技术并没有克服RNA降解和长度偏向性的问题,而且表现比PacBio平台更明显。

近几年PacBio平台在测序长度偏向性上有了很大改善,不仅如此,构建不同长度的文库进行测序,或是随机将多个转录本进行连接测序都有助于解决这个问题,华大基因多倍通量全长转录组技术便是基于后者改善了测序长度偏向性的问题。


图2 不同平台测序的GM12878转录本长度分布[1]。其中PacBio平台数据是2014年数据[2],当前平台数据表现更好;ONT是2018年数据[3]

PacBio平台需要非常高的数据量

更多的测序reads能获得更好的数据结果,但是对于长读长全长转录组到底需要多少数据量,至今没有一个准确的答案。

参考短读长RNA-Seq,至少需要30M的reads才能对一个混合样本里中高表达量的转录本进行研究[4]。对于PacBio平台,如果按照平均读长20k计算,需要600G数据才能达到30M reads。而且现在读长还在不断提升,为了获得要求的reads数据就需要测序更大的数据量。这里仅假设一个基因一个Isoform,如果一个基因有多个Isoforms,还需要更多的测序数据。有研究表明人的一个外显子基因平均有7个可变剪切事件,那么研究哺乳动物的转录本至少需要100M的reads才能基本涵盖一个组织的全长转录本。

为了达到饱和,利用PacBio平台测序,数据量和相应的测序成本会非常高。而华大基因多倍通量全长转录组,充分利用PacBio的长读长信息,一个读长中可以检测3-5个转录本,提高数据利用率。要达到与常规全长转录组相同的有效reads数,多倍通量全长转录组测序数据量甚至可以降低到1/3。

相比而言,ONT平台没有像PacBio那样的CCS结构,不需要那么高的数据量来达到要求的reads数。如假设ONT全长转录组平均读长为1.5K,那么测序45Gb能得到30M reads。

ONT平台测序准确度低

PacBio平台采用CCS模式测序全长转录组,因为测序的读长远远大于转录本长度,所以一个酶读长中会多次测序转录本,使得cDNA的一致性序列准确度>99%。

ONT raw read的长度也远远超过转录本长度,但是没有类似CCS的这种模式,导致ONT测序数据准确度只有88%(Q9)。2018年ONT公司发表的文章提到他们开发了R2C2技术,构建环化的cDNA文库,然后滚环复制获得长concatemeric分子,用于测序来获得一致性序列,将测序的准确度提升到97.5%(Q16)[5],但是至今并没有应用到生产实践中。

另外在技术原理方面,PacBio测序基于荧光标记原理,ONT则是基于电信号原理,前者可能出现随机性错误,可通过自身纠错获得高准确度;后者则属于系统错误,偏向于出现插入或缺失错误,无法通过自身序列纠错(图3)。

表1 不同测序平台的表现[1]


图3 ONT错误率高不利于分析[1]。如30个ONT测序 reads比对到CD9基因的前两个外显子(灰色),比对中包含了插入(橙色)、不匹配(红色)和缺失(细线),这些错误信息导致不能获得准确的转录本序列、准确的剪切位点、转录起始位点和polyA的位置。

全长转录组数据分析仍有很多挑战

全长转录组分析目的包括鉴定样本中的转录本Isoforms和定量Isoforms的表达,理想的情况是达到等位基因特异性水平。但是到现在为止,全长转录组的分析软件还比较少,而且Isoforms的分析还处于起步阶段仍需要不断地发展完善。

基于Isoforms进行定量还是一个巨大的挑战,是否包含不同的剪切位点就是不同的Isoforms,是否与5’非翻译区相距3个核苷酸就可以代表不同的转录组起始位点,这些问题都尚不确定。如果想要达到等位基因特异性Isoforms表达,就要准确区分等位基因,这个需要序列有足够的精确性以判断变异信息。未来随着研究水平的不断提升和信息分析软件的升级迭代,高通量等位基因特异性水平的Isforms定量一定会实现。


图4 全长转录组分析中面临的挑战。Reads比对后,理想的情况是能检测到等位基因差异,准确鉴定Isoforms并定量,检测RNA修饰。但是在真实的数据分析中,测序的错误率、非全长序列都会增加分析的复杂性。

综上,基于PacBio平台的全长转录组有更高的准确性,有利于检测剪切位点、转录起始位点和polyA的位置,华大基因多倍通量全长转录组有助于克服长读长转录组存在的不足(见下表)。

表2 三种全长转录组研究方式的差异对比

即日至10月底,多倍通量全长转录组限时9折,相同数据量下获得3-5倍的有效reads,检测转录本数量翻倍,实现准确定量!迎接开学季,更多优惠促销即将发布,更配套互动赢礼环节,敬请关注微信号发布的消息~

参考文献:

[1] Byrne A, Cole C, Volden R, et al. Realizing the potential of full-length transcriptome sequencing[J]. Philosophical Transactions of the Royal Society B, 2019, 374(1786): 20190097.

[2] Tilgner H, Grubert F, Sharon D, et al. Defining a personal, allele-specific, and single-molecule long-read transcriptome[J]. Proceedings of the National Academy of Sciences, 2014, 111(27): 9869-9874.

[3] Workman R E, Tang A D, Tang P S, et al. Nanopore native RNA sequencing of a human poly (A) transcriptome[J]. Nature Methods, 2019, 16(12): 1297-1305.

[4] Sims D, Sudbery I, Ilott N E, et al. Sequencing depth and coverage: key considerations in genomic analyses[J]. Nature Reviews Genetics, 2014, 15(2): 121-132.

[5] Byrne A, Supple M A, Volden R, et al. Depletion of hemoglobin transcripts and long read sequencing improves the transcriptome annotation of the polar bear (Ursus maritimus)[J]. Frontiers in genetics, 2019, 10: 643.

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号