探索HiFi测序在转录组学领域的更多可能性

【字体: 时间:2023年02月21日 来源:

编辑推荐:

  凭借独家的Iso-Seq测序技术,科学家们无需进行组装拼接即可轻松覆盖isoform全长,所以在没有参考基因组的情况下可以用作假定的参考序列以及解析更多的异构体多样性。

生物体都是由DNA转录成RNA,RNA翻译为蛋白质发挥不同生物学功能。这期间RNA的转录组由于具有重要的生物学意义一直受到科学家们的广泛关注,衍生出来的技术手段也多种多样,从bulk RNAseq到scRNA seq再到空间转录组,无论是在人类医学还是在动植物领域都引发了大规模应用和研究。

由于二代测序读长短,不能全面揭示生物体内复杂的可变剪接,由此以长读长而闻名的三代测序渐渐走入了科学家们的视野。而PacBio HiFi测序技术不仅读长长(reads length>10kb),同时也能兼顾极高的精准度(99.9%)。凭借独家的Iso-Seq测序技术,科学家们无需进行组装拼接即可轻松覆盖isoform全长,所以在没有参考基因组的情况下可以用作假定的参考序列以及解析更多的异构体多样性。

首先来看一下Iso-seq在动植物领域的应用:

1. 环境因素对中国阿尔泰山脉西伯利亚落叶松基因表达的显著影响

为了解全球变暖对北方森林物种基因表达的影响,研究人员使用PacBio和Illumina测序方法解析了中国新疆阿尔泰山脉西伯利亚落叶松自然种群的转录组,分析环境因素对其基因表达的影响。

1.1 由PacBio Iso-seq生成全长转录序列作为假定的西伯利亚落叶松“参考基因组”

由于西伯利亚落叶松没有可用的参考基因组,研究人员将新疆阿尔泰山脉12个地块的西伯利亚落叶松的针叶组织RNA汇集在一起构建文库进行PacBio Iso-seq。共生成3,198,422个subreads*,检测到43,733个全长非嵌合序列(FLNC*)和158,527个非全长序列(nFL)(图1b)。进一步冗余过滤和转录本家族聚类进行纠错后,保留了12697个转录模型(UniTransModel)(图1c)。在这些UniTransModel中,40.58%(5153)只有1个异构体,55.63%(7063)有2到5个异构体。只有一小部分(3.79%)的基因具有5种以上的异构体,表明转录组数据具有很高的复杂性。这12,697个基因的序列被用作假定的"参考转录组"。

注:subreads*:酶读长序列中,去掉哑铃状的测序接头序列后得到的多条序列即为subreads。FLNC*:即为物种原始的全长mRNA序列。

image003.jpg

图1. 西伯利亚落叶松Iso-seq流程。a. 用于从 Iso-seq 构建全长(FL)转录本的流程。b. Iso-seq的相关数据信息。c. 具有不同异构体数的UniTransModes的频率分布。d. 不同数据库具有的注释基因的百分比。CDD,保守域数据库;KOG,真核直系同源组;NR,NCBI非冗余蛋白;NT,NCBI非冗余核苷酸;TrEMBL,可翻译的EMBL;GO,Gene Ontology;KEGG,京都基因和基因组百科全书。

1.2 西伯利亚落叶松种群遗传结构

以Iso-seq为"参考基因组",回贴12个地域的34个针叶的Illumina转录组数据进行西伯利亚落叶松种群遗传分化的分析,得到总遗传分化指数FST为0.059,表明该研究区域的遗传分化较低。

考虑到基因表达可能受到遗传变异和环境因素的调节。为验证遗传变异对基因表达是否有显性影响,即按遗传变异和基因表达划分的聚类是否一致,研究人员根据每个个体的基因表达水平(FPKM)进行了主成分分析。结果发现地理距离相近的个体并没有像预期那样聚集在一起。相反,个体主要被分为两组,分别对应高海拔和低海拔的栖息地(图2a,b)。因此,该研究区域主要影响转录组基因表达的是环境因素。

image005.jpg

图2. 按遗传变异和基因表达划分的西伯利亚落叶松的对比聚类模式。a. 对所有个体的基因表达进行主成分分析。
以红色绘制的个体位于海拔高于蓝色的地点。b. 基因表达皮尔逊相关系数的层次聚类热图。

1.3 基因共表达网络

为了进一步评估环境因素(海拔、降水和温度)与基因表达之间的关系,研究人员进行了共表达网络分析,8411个活性基因共分为8个共表达模块(图3a,b),其中A、C、D、E和F与温度呈显著正相关,B和G与温度负相关。由于温度通常随着海拔的升高而降低,与温度呈正相关的模块通常与海拔高度呈负相关(模块C、E和F),而与温度正相关的模块与海拔高度负相关(模块B和G)。然而没有模块与降水量相关。综上,温度对西伯利亚落叶松基因表达有显著影响。

image007.jpg

图3. 加权基因共表达分析。a. 对表达数据的树状图进行聚类。b. 模块-性状相关性的热图。行对应模块特征基因,
列对应海拔、降水和温度(T.min,最低温度;T.mean,平均温度;T.max,最高温度)。

讨论

研究发现,该地区的种群遗传分化较低,主要是温度主导了西伯利亚落叶松的差异基因表达,推测西伯利亚落叶松是通过改变自身基因表达来适应温度的变化。这些结果不仅预测了北方森林未来对更高温度的耐受性,还为全球气候变化下的森林管理战略提供了信息。

2. 马支气管肺泡细胞的长读长转录组

马是揭示哮喘相关的新途径的动物模型,马支气管肺泡灌洗液(equine bronchoalveolar lavage fluid, BALF)细胞学检查由于侵入性小常用于确认马哮喘的诊断。

为了更进一步解析马哮喘的病因,研究人员使用PacBio Iso-seq测序对健康马和哮喘马的BALF细胞进行了全长转录本测定(图1),生成了313,563条HiFi reads,由此产生由14,234个的全长转录异构体(源自7,017个独特基因)组成的马BALF转录组。这些基因由6880个已知基因和137个新基因组成(表1)。

image001.jpg

图1. 用于生成全长转录本注释的生信流程示意图。

表1. PacBio Sequel IIe转录本测序数据汇总统计。

image010.png

经剪接位点的分类鉴定,除了之前已知的10806个转录本外,还鉴定了3428个新的转录本。这些包括现有基因组注释中缺失的转录本、比对推测的新(未注释)基因的转录本以及包含多个基因外显子的融合转录本(图2)。

image012.jpg

图2. A. 在已知的和新的转录异构体中鉴定的前十个剪接位点。B. 转录组结构分类中中不同剪接连接类型的分布。

最后GO分析解析了与马哮喘的病理学密切相关的生物学过程,发现哮喘马体内有中性粒细胞炎症相关基因的富集的现象,表明这匹马患有严重的嗜中性粒细胞性哮喘。

讨论

由此,转录组的复杂性可见一斑。这项研究证明了PacBio长读长测序通过提供异构体水平的全长转录本信息改善了马转录组的注释,为未来马转录组学提供了宝贵的资源。未来基于HiFi的单细胞Iso-seq将会以更高的分辨率生成高质量的基因表达谱。

参考文献:

[1]Liu M, Liu X, Zhou P, Jiang S, Huang JG, Dong Z. Environmental factors have a major effect in shaping the gene expression of Siberian larch in the Altai Mountains of China. Plant Genome. 2022 Sep;15(3):e20240. doi: 10.1002/tpg2.20240. 

[2] Sage SE, Nicholson P, Leeb T, Gerber V, Jagannathan V. Long-Read Transcriptome of Equine Bronchoalveolar Cells. Genes (Basel). 2022 Sep 25;13(10):1722. doi: 10.3390/genes13101722.

技术对比

短读长RNA测序(RNA-seq)

优:通常用于研究疾病相关的基因表达定量;

缺:不足以推断准确的全长转录本结构。

长读长测序(Iso-seq)

优:测序准确性高,可以得到isoform信息,发现新基因、融合转录本和非编码RNA。

缺:局限于通量。

突破:新近推出的MAS-seq试剂盒,通过16重的串联实现通量最大化,在单细胞领域可实现:

通量提升16倍;

单张芯片产出4000万条全长cDNA序列;

一次检测3000-10000个细胞。

足以得到单细胞cDNA的全长异构体信息,从而洞察细胞类型特异性异构体。

同时,PacBio计划将MAS-Seq技术扩展至16S rRNA和Bulk RNA等关键应用,为科学家们提供具有成本效益的成套解决方案和端到端软件,促使该领域转向真正的转录组学研究!各位老师们敬请期待!

image014.png

如果您对MAS-seq或者HiFi测序技术感兴趣,

欢迎您与您身边的基因人联系!

基因有限公司作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

image017.png

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号