体外转录测序揭示RNA-seq的终极误差

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2014年07月14日 来源：生物通

编辑推荐：

　　最近，美国宾夕法尼亚大学、土耳其科克大学、美国三角研究园和约翰霍普金斯大学的研究人员，共同在国际生物学权威期刊《Genome Biology》发表的一项研究中，提出并应用体外转录测序（IVT-seq），来更好地理解RNA-seq中出现的偏差。

生物通报道：高通量RNA测序（RNA-seq）是了解转录调控的一种强大技术。利用RNA-seq，我们不仅可以更好地进行传统的基因差异表达分析，而且还可以全面地研究可变剪接、RNA编辑、等位基因特异性表达和确定新的转录本（编码RNA和非编码RNA）。

与更成熟的、以RNA表达分析为基础的微阵列相反，RNA-seq的灵活性可让研究人员针对不同的目标（例如据腺苷酸化转录本、小RNA测序、总RNA测序等），开发出许多不同的方案。然而，这种灵活性同样可能有复杂的技术偏差，因为研究人员经常使用不同的方法，进行RNA提取、大小选择、片段化、转换为cDNA、扩增和最后测序。

尽管在生成和分析RNA序列数据方面已经取得了进展，但是我们对于各种方案所引入的技术偏差了解相对较少。了解这些偏差对于差异分析至关重要，以避免实验假象并实现这一强大技术的所有潜能。

研究人员一直都在试图了解这些误差，以往的工作确定了几个来源，包括GC含量和PCR富集、通过随机引物的反转录启动、在边合成边测序反应中引入的读长误差、以及各种核糖体RNA（rRNA）subtraction方法引起的偏差。揭示这些偏差来源的研究，通常使用计算方法对现有的测序数据进行分析，以评估各种测序技术和文库构建的性能。这种方法的一个缺点是，它可能很难知道覆盖中的异常现象是自然存在还是由技术问题引起。例如，几乎所有的RNA-seq研究有外显子内覆盖的差异，这可能来自于共有外显子部分的自然发生的剪接变体，或者可能是由文库构建或测序过程中的技术误差引起。

考虑到研究人员正在不断开发新的测序方法和文库构建方案，我们需要一种方法来评估该技术中每种新方案所引起的技术偏差。一种有吸引力的选择是，从已在体外转录（vitro transcribed，IVT）自cDNA克隆的RNA，来生成文库，其中每个碱基的核苷酸序列是已知的，剪接模式被建立并不能违反，转录本之间的表达水平已知是一致的。

因此，在覆盖或表达中任何观察到的偏差，一定是技术性的，而非生物性的。这是计算机研究人员通常用来开发和评估比对算法的模拟数据的实验对应物。2011年，Jiang及其同事使用类似的方法，分析了来自于枯草杆菌（Bacillus subtilis）的96个合成序列或深海喷口微生物Methanocaldococcus jannaschii基因组，这些生物没有RNA剪接或聚腺苷酸化。然而，这项工作的重点是构建一套有用的标准，能用于下游分析，而不是探索一组复杂哺乳动物样本中的文库构建偏差。

最近，美国宾夕法尼亚大学、土耳其科克大学、美国三角研究园和约翰霍普金斯大学的研究人员，共同在国际生物学权威期刊《Genome Biology》发表的一项研究中，提出并应用IVT-seq，来更好地理解RNA-seq中出现的偏差。简而言之，就是首先产生、汇集单个质粒，并进行体外转录。其次，将这种RNA与复杂的小鼠总RNA以不同的浓度混合，然后在Illumina平台上，利用两种最常见的RNA测序方案（polyA seq或total RNA seq）进行测序。

研究人员在大多数IVT转录本中发现了覆盖偏差，超过50%在转录本覆盖范围内表现出超过2倍的变化，10%具有大于10倍的、由文库准备和测序引起的差异。此外，研究人员发现6%以上的IVT转录本包含高的、不可预测的测序覆盖区域，它们在样本之间显著不同。这些偏差在复制之间是高度可重复的，表明外显子水平的量化可能是不可取的。

此外，研究人员利用几种不同的RNA选择方法（rRNA去除、polyA选择和非选择），构建了来自原始质粒模板的测序文库。他们发现，rRNA去除和polyA选择是这种覆盖偏差的一个重要原因，计算分析表明，转录本代表性差的区域与低复杂度的序列相关。总之，这些结果，IVT-seq方法用于描述和识别测序技术中的覆盖偏差源是实用的。

（生物通：王英）

延伸阅读：解读单细胞RNA-seq技术

生物通推荐原文摘要：
IVT-seq reveals extreme bias in RNA-sequencing
Background: RNA-seq is a powerful technique for identifying and quantifying transcription and splicing events, both known and novel. However, given its recent development and the proliferation of library construction methods, understanding the bias it introduces is incomplete but critical to realizing its value.

Results: We present a method, in vitro transcription sequencing (IVT-seq), for identifying and assessing the technical biases in RNA-seq library generation and sequencing at scale.

We created a pool of over 1000 in vitro transcribed (IVT) RNAs from a full-length human cDNA library and sequenced them with polyA and total RNA-seq, the most common protocols. Because each cDNA is full length, and we show IVT is incredibly processive, each base in each transcript should be equivalently represented.

However, with common RNA-seq applications and platforms, we find 50% of transcripts have more than 2-fold and 10% have more than 10-fold differences in within-transcript sequence coverage. We also find greater than 6% of transcripts have regions of dramatically unpredictable sequencing coverage between samples, confounding accurate determination of their expression.

We use a combination of experimental and computational approaches to show rRNA depletion is responsible for the most significant variability in coverage, and several sequence determinants also strongly influence representation.

Conclusions: These results show the utility of IVT-seq for promoting better understanding of bias introduced by RNA-seq. We find rRNA depletion is responsible for substantial, unappreciated biases in coverage introduced during library preparation.

热点排行

新闻专题

联系信箱：

粤ICP备09063491号