看scIso-seq如何重塑对大脑发育和疾病的认知

【字体: 时间:2023年07月24日 来源:

编辑推荐:

  近日,发表在bioRxiv上的研究利用scIso-Seq在组织和单细胞分辨率上深入分析人类妊娠期发育中的新皮层的生发区(germinal zone, GZ)和皮质板(cortical plate, CP)区域的全长转录组,以一个新的细胞特异性基因异构体表达图谱重塑了对大脑发育和疾病的理解。

scIso-Seq

人类大脑发育受到严密的分子遗传控制,其中普遍存在RNA剪接,并且与神经疾病有很强的联系。但以前的工作并没有系统地研究细胞类型特异性剪接或转录异构体多样性在人类大脑发育中的作用。这也是由于短读长scRNA-Seq的技术限制,先前的基因组表征主要局限于基因水平的变化,无法全面捕捉到人类大脑中存在的选择性剪接的复杂性和由此产生的异构体多样性。而PacBio的单细胞异构体测序(Single Cell Isoform-Sequencing,scIso-Seq)是基于HiFi测序技术的单细胞全长转录本高通量测序技术,该技术无需打断RNA,直接对(包含5’UTR直到3’polyA尾序列信息的)全长的cDNA序列进行测序,相比于打断后再组装的NGS技术,能够更加精确地表征整个转录组的细胞类型特异性的全长异构体信息。

文献速递

近日,发表在bioRxiv上的研究“Cell-type-specificity of isoform diversity in the developing human neocortex informs mechanisms of neurodevelopmental disorders”利用scIso-Seq在组织和单细胞分辨率上深入分析人类妊娠期发育中的新皮层的生发区(germinal zone, GZ)和皮质板(cortical plate, CP)区域的全长转录组,以一个新的细胞特异性基因异构体表达图谱重塑了对大脑发育和疾病的理解。

image003.jpg

1 组织层面解析妊娠期发育中的人脑全长转录组

首先用显微解剖的方法收集六个妊娠中期个体的发育新皮层中富含神经祖细胞的GZ和富含神经元的CP,接着进行bulk Iso-seq来捕捉在神经发生过程中转录异构体的表达和使用是如何变化的(图1A-C)。在bulk Iso-seq测序数据中,超过99%的全长reads与人类参考基因组完全一致,相比短读长RNA-Seq 85%的定位率有显著提高,增强了新剪接异构体的发现。从bulk Iso-seq测序数据共获得了214,516种独特的异构体,对应22,391个基因。与Gencode v33参考数据集相比,只有65,006(30.3%)个异构体与现有注释相对应。

image005.jpg

图1. 妊娠中期发育中人类新皮层的细胞类型特异性的全长转录组。

接下来,研究人员整合蛋白质组学(基于基因组注释预测下游编码的蛋白)来揭示人脑发育中转录组的复杂性:(1)确定了27 Mb的人类基因组,它们在发育中的人类大脑中具有转录活性,但目前没有被注释到任何Gencode基因模型中(图2D)。(2)确定了bulk Iso-seq发现的新外显子和新转录本将蛋白组扩展到92,422个有编码潜力的蛋白质(图2F-H)。(3)大量基因在GZ和CP之间表现出显著的差异基因表达(differential gene expression, DGE)模式和差异转录本使用(differential transcript usage, DTU),大多数(57%)差异显著的异构体来自新的转录本且都观察到或预测到功能(图3B-C)。

image007.jpg

图2. 妊娠中期发育中人类新皮层的转录组和蛋白质组的复杂性。

同时,bulk Iso-seq支持对转录本的3' UTR的检测(图3D)。基于远端polyA使用指数(distal polyA usage index, DPUI)——映射到远端3' UTR的总reads数的比例,发现9,896个具有多个注释的polyA位点转录本中有1,013个转录本在GZ和CP之间表现出显著的DPUI差异(图3D),CP中大部分转录本(772)的3' UTR长度总体上比GZ更长。另外,在DPUI显著变化的转录本中,存在大量编码RNA结合蛋白(RNA-binding proteins, RBPs)的基因(GZ和CP中分别为453/1,013个基因和3,074/8,883个基因)。

最后,研究人员分析了皮质神经发生过程中所有表现出跨区域显著的可变剪接的基因进行了通路分析,发现它们富集的生物学途径包括树突形态发生、钙粘蛋白结合、nBAF和SWI/SNF复合物等,并且已知它们对神经疾病具有趋同的遗传风险(图3E)。另外,虽然在GZ和CP之间观察到的许多可变剪接事件可能是由大脑富含的RBP通过选择性剪接调节的,但更多的可变剪接事件可能是由以前未发现的新型RBP调节的多种机制产生的(图3)。

总之,研究表明基于bulk Iso-seq检测出的异构体水平的信息对于完善大脑发育过程中导致疾病的机制解释至关重要。

image009.jpg

图3. 发育中的人类皮质中的可变剪接事件。

2 单细胞分辨率下解析发育中的人脑全长转录组

2.1 从单细胞水平解析发育中的人脑全长转录组的复杂性

在MAS-seq推出之前,一贯的研究思路是用二代测序鉴定不同的细胞类型,用scIso-seq发现不同的异构体,结合二者的信息实现单细胞水平的异构体表达谱。因此为了获得细胞类型特异性,研究人员又基于与短读长测序相同的barcode利用scIso-Seq在另外3个显微切割的GZ和CP样本中分析了超过7000个单细胞(图1A),生成了> 2640万个高质量的PacBio CCS reads。所有后续分析都是基于这个scIso-Seq数据集。

研究人员在每个细胞中平均检测到530个独特的转录本,总共定位到18,541个基因和138,497个独特的异构体。新异构体数目占到71.7%,与前面组织层面检测到的一致。

接下来,基于相同barcode的scIso-Seq数据和短读长RNA-Seq数据聚类鉴定了发育中的人类新皮层中16个不同的细胞簇,构建了细胞类型特异性的异构体表达谱(图5A-B)。比较不同细胞类型的异构体表达多样性,研究人员观察到兴奋性神经元簇,特别是那些与新生迁移神经元(newly-born migrating, ExN)和成熟神经元(maturing neurons, ExM)相对应的神经元,拥有最多的同种异构体,突出了这些新异构体在早期神经元成熟过程中的作用(图5C)。观察在祖细胞和神经元之间动态表达的多异构体基因,发现参与肌动蛋白聚合动力学和形态发生的PFN2异构体在祖细胞和神经元之间具有相反的表达模式(图5D)。总之,这些例子突出了不同细胞类型和发育相关异构体表达的变化,以及对其编码蛋白产物结构或稳定性的假定后果。

image011.jpg

图5-1. 发育中的人类皮质中的细胞类型特异性异构体的多样性。

2.2 从单细胞异构体水平聚类发现新的细胞类型

基于异构体表达数据重新聚类产生了15个高度稳定的簇,虽然大多数与基于基因表达聚类的细胞类别相同,但是具有更高分辨率,如祖细胞转变为神经元和早期出生的兴奋性神经元被分成不同的簇;ExN分为三个簇(ExN1-3),包括先前注释为IP, ExN和ExM簇的细胞,以及两个新簇vRG-ExN和ExN-ExM,代表以ExN细胞为中心的成熟光谱两侧的细胞(图5F-G)。总体而言,通过基于异构体聚类获得的ExN和ExM细胞分辨率的提高与观察到的这些细胞中异构体多样化的增加相匹配(图5C),并支持该机制在神经发生的早期过程中的作用。

image013.jpg

图5-2. 发育中的人类皮质中的细胞类型特异性异构体多样性。

2.3 以异构体为中心揭示神经疾病机制

最后,研究人员利用人类皮层发育的细胞水平的异构体图谱来更好地了解神经疾病的遗传风险机制。富集分析发现神经发育和神经疾病的罕见变异位点关联信号仅在CP中上调的基因和异构体中观察到,并且在神经发育障碍(Neurodevelopmental disorders, NDD),自闭症谱系障碍(Autism Spectrum Disorder, ASD), 退行性椎间盘疾病(degenerative disc disease, DDD)和癫痫(Helbig)中显著上调,但不包括精神分裂症(schizophreni, SCZ)和双相情感障碍(Bipolar Disorder, BIP)(图6A)。而NDD、DDD和ASD基因异构体主要富集于兴奋性神经元(ExM-u、ExDp或ExM)(图6C)。部分NDD基因和引起ASD综合征形式的基因在有丝分裂祖细胞和放射状胶质细胞中也富集,对应这些疾病广泛的表型谱。最后,研究人员观察到NDD基因在ExN1中富集,ExN1是一种基于异构体水平新定义的细胞状态(图6C和图5),突出了该数据的有用性。

基于基因和异构体共变异网络分析NDD, DDD和非综合征型ASD大量重叠的分子特征时发现,与基因表达(geneExpr, 40%)相比,绝大多数疾病相关模块由异构体表达(isoExpr, 77.3% p名义<0.05)定义,其次是异构体使用(isoUsage, 62.1%)。NDD、DDD和ASD在许多细胞过程中都有重叠的模块,但重点是染色质重塑、与神经和突触发育有关的细胞骨架动力学以及RNA加工。

基于> 27 MB的新注释,研究人员推断一些先前鉴定的非编码变异可能携带新发现的转录活性,其中有1.24%的变异发生了最严重的后果(图6D)。例如,来自智力障碍/发育障碍(ID/DD)的新生突变(de novo mutation, DNM)预测会导致KLC1蛋白(参与微管运输)起始密码子的丢失,预计该异构体编码一个具有新的蛋白质(TALONT000423578.p1),更好地解释了DD/ID DNM的有害影响(图6E)。这些发现支持了异构体表达的多样化在神经发育和疾病机制发展过程中的重要作用,提供了在更细的分类水平上剖析疾病机制的机会。

image016.jpg

图6. 以异构体为中心的神经遗传风险机制解析。

3 讨论

之前由于依赖于短读长测序和不完整的基因组注释,使得解析从基因突变到功能异构体变化存在技术性挑战。在这里,研究人员利用高深度的scIso-seq提供了一个妊娠中期发育的人类新皮层的前所未有的、全长的、异构体水平的单细胞转录组,揭示了在发育中的新皮层中异构体多样性对细胞特性的重大贡献,阐明了神经发育和神经疾病的新的遗传风险机制,并为发育中的人类大脑提供了全面的以异构体为中心的基因注释。

原文链接:https://www.biorxiv.org/content/10.1101/2023.03.25.534016v2.full#ref-20


Mas-seq

目前,基于Iso-seq+串联策略的Mas-seq测序可将通量可提高16倍,本篇研究的单细胞测序数据都可以通过Revio和MAS-Seq完成(不再需要二代测序数据进行细胞分型)。

Mas-seq进行单细胞转录组研究可以实现:

• 突破传统基因水平研究,获得更多全长异构体的信息;

• 准确检测细胞条形码和UMI;

• 可以全面解析单细胞的可变剪切、mRNA点突变和融合基因等信息;

• 一次检测3000-10000个细胞;

• 4000万条cDNA序列(Sequel II/IIe),

   8000万条cDNA序列(Revio);

• 不需要短读长。


订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号