PacBio HiFi长读长测序攻克类人猿Y染色体扩增基因的转录本多样性检测难点

【字体: 时间:2024年05月08日 来源:基因有限公司

编辑推荐:

  PacBio HiFi长读长测序对于区分来自每个YAG家族中高度相似拷贝的转录本至关重要:能够识别新的基因拷贝和YAG注释拷贝的新异构体、识别假基因、揭示转录本异构体多样性。

YAG介绍

人类Y染色体由两个假常染色体区域(pseudoautosomal regions, PARs)和一个较大的男性特异性区域(male-specific region, MSY)组成。MSY包含三类区域:X转置区(通过最近的X染色体复制获得),X简并区(源自原性染色体)和扩增区。Y染色体扩增基因(Y chromosome ampliconic genes, YAGs)位于扩增区,在睾丸中表达,编码在精子发生中起作用的蛋白质,并影响男性生育能力。

在人类中,YAG包括9个基因家族:BPY2、CDY、DAZ、HSFY、PRY、RBMY、TSPY、VCY和XKRY。除了TSPY(其拷贝是串联重复序列)外,人类的YAG位于回文序列中,起促进基因转换的作用。其测序难点在于:①YAG在基因拷贝之间具有较高的序列同一性,特别是位于相同回文对称臂上的YAG,其拷贝几乎相同;②拷贝数变化:不同物种甚至同一物种的个体之间,YAG的拷贝数存在很大差异;③假基因化:如PRY存在假基因化。

这些技术难点在三代测序(PacBio HiFi测序)上都可以得到相应的解决策略。2023年发布的无gap的人类参考基因组CHM13,可谓是证明了PacBio HiFi测序的实力。人类基因组端粒到端粒(T2T)联盟对CHM13的解析在PacBio HiFi测序(2019年发布)的加入后获得了突破性的进展,结合HiFi既长且准实现对变异(SNP, InDel, SV)的全覆盖,对串联重复、假基因和片段重复的检出,甚至实现了基因组的定相,更是获得了人类Y染色体的完整序列(往期回顾:文献解析 | 从Y染色体的完全组装到中国人的泛基因组,HiFi测序给您答案!)。因此五种类人猿(倭黑猩猩、黑猩猩、大猩猩、苏门答腊猩猩和婆罗洲猩猩)的Y和X染色体的T2T组装也采用同样的方法完成。获得了YAG家族的完整序列,下一步就迫切需要描述类人猿Y染色体上基因的功能,特别是生殖相关。

最新进展

先前的工作是基于靶向测序对YAG转录本进行组装,没有使用参考基因组组装,这可能导致转录本库不完整。因此,在“Transcript Isoform Diversity of Y Chromosome Ampliconic Genes of Great Apes Uncovered Using Long Reads and Telomere-to-Telomere Reference Genome Assemblies”的研究中,研究人员以6种类人猿物种(倭黑猩猩、黑猩猩、人类、大猩猩、婆罗洲猩猩和苏门答腊猩猩)近期已组装的端粒到端粒(T2T)的Y染色体无gap基因组为参考,分析了来自以上物种的全睾丸样本的RNA数据:将靶向长读长(PacBio Iso-seq)、非靶向长读长(PacBio Iso-seq)和非靶向短读长(Illumina)组合在一起,并将它们映射到T2T参考基因组上,从而详细表征了类人猿YAG转录本异构体的丰富多样性。

image001.png

结果与分析

1 生成全面的YAG转录本数据

对于每个类人猿物种,研究人员获得了3组YAG转录组数据:2组靶向Iso-seq数据(技术重复1和2)和1组非靶向Iso-seq数据。对于人类,获得了两组YAG转录的靶向Iso-seq数据(技术重复1和2)。下游分析合并了三个转录组数据,为每个物种创建了一个非冗余的YAG转录本库。

2 YAG新拷贝和转录异构体的鉴定

基于NCBI参考基因注释对YAG转录本进行结构分类,发现在组装的YAG转录本中,大多数归类于“完全剪接匹配”(full splice match, FSM)和“不完全剪接匹配”(incomplete splice match, ISM)类别。而且FSM占比最大,这表明组装的转录本与参考注释的一致性很好。此外,基于PacBio Iso-seq在所有物种中都发现了注释基因的新转录异构体。新异构体分为两类:“包含已知剪接元件的新转录本”(novel in catalog, NIC;在带注释的供体/受体位点之间有新剪接的转录本)和“未知剪接元件的新转录本”(novel not in Catalog, NNIC;至少有一个新的供体或受体位点的转录本)。所有物种中NNIC转录本均多于NIC转录本。

除了新的转录本外,还在所有物种中发现了潜在的新基因拷贝,包括编码和非编码拷贝(假基因)。对编码拷贝而言,大多数拷贝编码多个蛋白质异构体(237个和143个基因拷贝分别编码多个和单个异构体)。如图1,研究人员给出了支持复制和不支持复制的数据集的数据(图1A),以及新基因拷贝的证据(图1B)。

image002.png

图1. 通过将组装好的YAG转录本映射到类人猿的参考T2T基因组鉴定出先前未注释的YAG拷贝。A.潜在的新基因拷贝,至少有一个复制支持的转录物映射(复制支持和不复制支持的新基因拷贝的透明度不同)。B.潜在的BPY2新拷贝,有七个转录本(都不支持复制)映射到它。

3 类人猿YAGs的X染色体和常染色体同源物

如图2B所示,研究人员发现了一些转录本源自于X染色体和/或常染色体上的同源物。

image003.png

图2. 类人猿9个Y染色体扩增基因家族的基因和转录假基因结果展示(A)以及转录本中有X染色体和常染色体同源物的结果展示(B)。

4 不同物种的YAG家族转录本的数量和长度的多样化

在所有物种YAG家族中,研究人员总共鉴定出1266个与Y染色体相关的独特转录本,其中445个是复制支持(replicate-supported)的,平均每个物种有211个转录本(74个复制支持)。不同物种YAG家族的转录本数量和长度存在很大差异。在整个数据集中,研究人员发现了丰富的RBMY(总共374个转录本,159个复制支持)和TSPY(总共230个转录本,77个复制支持)转录本。相比之下,VCY只有9个转录本(所有复制支持)。所有基因家族的转录本平均长度为1937 bp,最长的转录本为9838 bp,属于婆罗洲猩猩HSFY基因家族,最短的转录本为202 bp,来自婆罗洲猩猩的XKRY基因拷贝。

5 YAG转录本的编码潜力

为了表征组装转录本的编码潜力,研究人员使用BLASTP将转录本中发现的所有cORF与NCBI蛋白数据库中已知的类人猿YAG蛋白序列进行比对,以≥50个氨基酸界定ORF是完整的ORF (cORF),高置信度的cORF则要求与类人猿YAG蛋白已知序列具有显著同源性。大多数比对结果的覆盖率在80%以上,序列一致性在70%以上,而DAZ、RBMY、TSPY和CDY转录本的比对显示出序列的巨大差异(60-100%)。在所有物种基因家族中,研究人员鉴定出1063个具有高置信度cORF的转录本(平均长度= 267 aa, SE = 6;表2,图3A),其中445例(42%)为重复支持(平均长度= 315 aa, SE = 9)。每个物种平均177个转录本(74个重复支持)具有高置信度的cORF。大多数高置信度cORF来自RBMY、DAZ、TSPY和CDY基因家族。VCY和XKRY蛋白编码转录本数量最少。

接着将高置信度cORF的长度与NCBI蛋白质数据库中先前发表的蛋白质序列的长度进行比较,发现预测的蛋白质长度与先前报道的蛋白质长度非常一致(图3B),如BPY2(长106个氨基酸)。并且在许多情况下,研究人员预测了同一基因家族有不同长度的蛋白质异构体(图3B)。例如,CDY(蛋白长度:470和540个氨基酸),HSFY(蛋白长度:323和401个氨基酸)等。有趣的是,部分基因家族还存在物种特异性异构体:在人类和猩猩中发现了两个较长的(323和401个氨基酸) HSFY异构体,而在大猩猩、倭黑猩猩、黑猩猩和人类中发现了较短的(50-250个氨基酸)异构体。RBMY, CDY, TSPY和DAZ基因家族,已知在类人猿物种中有许多蛋白质编码拷贝,在蛋白质的预测长度上表现出很大的差异。

表1. 类人猿YAG蛋白预测性统计。

image004.png
image005.png

YAG转录本编码潜力的表征使研究人员能够区分基因和转录的假基因。研究人员发现CDY、DAZ、RBMY、TSPY和HSFY在所有物种中都有多个基因拷贝。除了CDY,研究人员还在这些基因家族中发现了大量转录的假基因(图4)。BPY2、XKRY、VCY和PRY的基因拷贝数较少,在一些物种中缺失蛋白质编码拷贝(图4)。

image006.png

图4. 类人猿YAGs基因拷贝数和转录假基因拷贝数。

6 不同物种间YAG结构和序列异构体的多样性

为了表征类人猿物种间YAG转录本的异构体多样性,研究人员将所有物种的转录本定位到单个人类蛋白质编码基因拷贝。通过比较种内和种间转录本的外显子-内含子结构来鉴定结构异构体(仅限具有高可信度cORF的转录本)。序列异构体是通过比较物种内和物种间转录蛋白序列来鉴定的(仅限具有高置信度cORF的复制支持转录本)。

对于每个基因家族,研究人员观察到结构和序列异构体的高度多样性(图5)。RBMY具有最多的独特序列异构体(n = 87),DAZ具有最多的结构异构体(n = 40;图5A)。BPY2的序列异构体数量最少(n = 4),VCY的结构异构体数量最少(n = 2)。在9个基因家族中,有7个(CDY、HSFY、PRY、RBMY、TSPY、VCY、DAZ),序列异构体的多样性高于结构异构体的多样性(图5B)。对于XKRY,独特的结构和序列异构体的数量相等。BPY2的结构异构体多样性高于序列异构体多样性。

image007.png

图5. 类人猿YAG转录物异构体多样性的研究。图中显示了结构异构体(橙色表示外显子-内含子结构不同)和序列异构体(蓝色表示序列不同)。

研究人员进一步确定了物种之间共有的/特有的同种异构体。HSFY和TSPY的结构异构体在所有具有蛋白质编码拷贝的基因中都是共享的,CDY的结构异构体在6个物种之中的5个物种共享(图6)。婆罗洲猩猩和苏门答腊猩猩在每个基因家族的结构和序列水平上都有共享的异构体(除了DAZ,在苏门答腊猩猩中没有观察到;图6)。黑猩猩和倭黑猩猩具有CDY、PRY、VCY和RBMY的共同结构异构体,以及TSPY和DAZ的共同序列和结构同种异构体(图6)。有趣的是,TSPY在转录本结构水平上表现出显著的保守性,大多数转录本由所有物种共享的同种异构体呈现(图6)。

image008.png

图6. 类人猿CDY、TSPY和DAZ基因家族序列异构体和结构异构体多样性。

讨论与展望

PacBio HiFi长读长测序对于区分来自每个YAG家族中高度相似拷贝的转录本至关重要:能够识别新的基因拷贝和YAG注释拷贝的新异构体、识别假基因、揭示转录本异构体多样性。研究显示YAG转录本异构体多样性多源于选择性剪接,导致结构多样性;基因复制和分化导致序列多样性。序列异构体多样性总体上高于结构异构体多样性。值得注意的是,由于YAG的表达水平较低,测序深度可能不足以捕获YAG转录本的全部多样性,所以文章采用的是特定的测序策略,以靶向Iso-seq克服测序可能不足的障碍,并辅以非靶向Iso-seq最大程度的获得YAG全部的转录本信息。

现阶段对YAGs编码的蛋白质的作用还知之甚少,未来还需要继续加深对YAGs编码的蛋白质在类人猿精子发生中的作用的理解。

PacBio HiFi测序系统

HiFi测序读长能达到10-25 kb,准确度也在Q30(99.9%)以上,Iso-seq方法可提供全长转录本异构体,无需组装即可表征转录组的完整多样性,探索不同剪接机制生成的不同异构体是如何导致健康和疾病间的表型差异:

 发现可变起始位点和终止位点,检测可变多聚腺苷化

 揭示复杂可变剪接、融合事件以及转录通读

 鉴定等位基因特异性异构体

PacBio推出了Kinnex试剂盒!!!

Kinnex试剂盒基于MAS-Seq方法,可将较小的DNA片段连接成较长的HiFi可用文库,提高测序通量,使长读长 RNA -seq更具成本效益。

 Kinnex 单细胞RNA试剂盒以现有的 MAS-Seq for Single Cell 3'试剂盒为基础,增加了对 10x Genomics 5'试剂盒和文库复用的额外支持。可使测序通量提高16倍,获得基因表达及全长isoform信息,在单细胞水平上揭示RNA异构体多样性。

 Kinnex 全长RNA试剂盒可进行全长RNA 测序,与典型的Iso-seq文库相比,其通量提高了8倍,可实现从5'端到3'端全长异构体测序,准确表征剪接位点,发现新基因和新异构体,鉴定融合基因,并获得基因及异构体read计数信息进而分析表达量。

参考文献:

https://www.biorxiv.org/content/10.1101/2024.04.02.587783v1.full

— End —

基因有限公司作为PacBio公司的中国区合作伙伴,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

关于基因

基因有限公司成立于1992年,是一家提供生命科学科研仪器、试剂耗材和技术服务的综合服务商。基于“Gene Brightens Every Life • BioTech Connects the World”——“基因燃亮生命 • 生物技术连接世界”的愿景,专注于生命科学领域前沿技术的引进和推广,致力于推动该领域国内科研机构硬件水平及实验方案的革新与升级。同时,公司也一直致力于自主品牌的科研设备的研发与生产,拥有一系列通用性强、互补性高的自主品牌产品。

基因的服务网络遍及全国各地十多个大中城市,拥有包括仪器销售,试剂销售,市场与技术支持,维修,客服,物流等多个部门组成的完整服务体系。

我们希望通过不懈努力,为您的成功铺路搭桥,也为中国的生命科学事业赶超世界先进水平尽一己之力。欲了解更多信息,请访问www.genecompany.cn。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号