
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类二倍体细胞系RPE-1近完整基因组组装揭示着丝粒高变异与染色体易位特征
【字体: 大 中 小 】 时间:2025年09月13日 来源:Nature Communications 15.7
编辑推荐:
本研究首次报道了人类非癌性视网膜色素上皮细胞系hTERT RPE-1的高质量二倍体基因组组装RPE1v1.1。通过整合Pacific Biosciences HiFi长读长测序、Oxford Nanopore超长读长测序和Hi-C技术,实现了染色体级别的单倍型分型,成功解析了包括着丝粒在内的重复区域。研究揭示了该细胞系特有的t(X;10)(Xq28;10q21.2)易位事件,并发现着丝粒区域呈现极高的单核苷酸多态性(SNP)密度(最高达7.3%)。该基因组为功能基因组学研究提供了精准的参考框架,支持等位基因特异性分析和表观遗传研究。
过去三十年来,基因组学领域取得了飞速发展。1990年启动的人类基因组计划(Human Genome Project)使用Sanger和鸟枪法测序技术对20名匿名个体的DNA进行了测序。2003年发布的最终组装结果代表了来自该群体的复合基因组。尽管取得了这些进展,人类基因组计划的参考序列仍缺少约8%与人类基因组重复区域相关的DNA。过去20年测序技术的进步,特别是生成长读长的技术,使得组装更完整的人类基因组成为可能。这一进展在2022年达到顶峰,完成了源自葡萄胎的CHM13细胞系的高质量、完全完整的人类基因组组装。然而,CHM13细胞系基本上是单倍体,仅包含在去核卵母细胞内复制的父系单倍型。相比之下, phased二倍体基因组(两个单倍型分别解析)能够研究母系和父系遗传多样性及基因表达印记,这些可能导致单倍型特异性疾病。它们还允许研究在同一单倍型上共分离的等位基因组合的功能后果。近年来,在测序和组装二倍体基因组方面取得了显著进展。这些包括HG002(源自男性个体B淋巴细胞的水生化淋巴母细胞系)和CN1(来自湖北的健康中国男性个体)的高质量组装,以及汉族人群的T2T-YAO参考基因组(包含Y染色体)。人类泛基因组参考联盟(HPRC)代表了捕获人类多样性的下一个重要步骤。该计划发布了一个包含47个体基因组的草案,旨在更好地代表全球基因组多样性。拥有来自不同人群的代表性基因组对于解决生物学问题和更深入地理解个体内和个体间的变异至关重要。然而,全世界实验室广泛使用的二倍体细胞系的基因组——作为大量体外实验和生物学观察的基础——在很大程度上仍未探索。这些细胞系缺乏参考质量的基因组组装,限制了我们概括实验发现以及完全理解实验室观察的遗传变异性和生物学含义的能力。
本文介绍了RPE1v1.1,即hTERT RPE-1细胞系的近完整参考质量de novo基因组组装。该细胞系源自非癌性人类视网膜色素上皮(RPE)细胞系RPE-340,通过人端粒酶逆转录酶(hTERT)永生化。hTERT RPE-1细胞系具有46条染色体的二倍体核型,缺乏转化表型,使其成为研究人类染色体正常生理功能的有价值模型。它是全球细胞和分子生物学实验室中使用最多的三大细胞系之一,并已被用于数千项研究中。hTERT RPE-1的近完整基因组是使用Hi-C技术来支持分型生成的,因为基于家系的三重分型不适用于细胞系。最终两个单倍型的质量值(Quality Value, QV)均高于61,其中17条染色体的QV达到67——对应于估计高于99.9999%的碱基准确性。该人类二倍体参考作为更广泛科学界的关键资源,是一个转折点,使得能够在这一重要细胞系涉及的广泛研究中进行高分辨率 phased遗传和表观遗传分析。
我们旨在为永生化细胞系RPE-1构建单倍型分辨的参考基因组。该细胞系以稳定的46条染色体二倍体核型为特征,包括先前报道的独特染色体重排。具体而言,这种重排涉及10号染色体长臂的重复,该臂易位到X染色体的端粒q臂,表示为t(X;10)(Xq28;10q21.2),导致46,X,der(X)(Xpter→Xq28::10q21.2→10qter)核型。我们采用最先进的方法,使用长读长技术实现了近完整的二倍体基因组组装。我们生成了覆盖度为46×的Pacific Biosciences (PacBio) High-Fidelity (HiFi) reads和覆盖度为125×的Oxford Nanopore Technologies (ONT) reads,其中超过100 kb的reads(超长reads)覆盖度为30×。此外,我们使用了覆盖度为30×的Hi-C数据来对单倍型进行分型,利用其捕获长程染色体相互作用的能力,即使在缺乏亲本三重信息的情况下也能分离两个单倍型。ONT测序数据完全使用R10.4化学方法产生,最终basecalling准确性达到99%。
测序数据被用作自动化基因组组装流程Verkko v1.4的输入。该工具产生的草图组装每个单倍型总共由42和54个scaffold组成。Hap1的间隙数量为49个,Hap2为25个,Hap1的总间隙长度为734,056 bp,Hap2为994,785 bp。10号和X染色体(参与该细胞系核型稳定重排的两条染色体)占Hap1总间隙长度的76%。这主要是由于10号染色体q臂的重复,在该区域产生了偏离预期二倍体状态的三倍体结构,导致局部组装坍塌。1、13、14、16、18、22和X(Hap1)号染色体,以及5、14、18和X(Hap2)号染色体由多于一个scaffold表示,表明存在读段覆盖不足、错误连接或嵌合读段的区域,阻止了这些染色体的完全scaffolding。我们还测试了组装器更新版本Verkko v2.0。然而,该版本生成的草图组装包含更多数量的间隙(Hap1为70个,Hap2为26个)。虽然它产生了更少的未分配contig,但其总碱基长度与Verkko v1.4的草图组装相当。当与CHM13参考基因组比对时,两个Verkko版本产生的未分配序列显示出相似的模式,其中大部分与10号染色体或核糖体DNA区域对齐。这些结果促使我们使用Verkko v1.4产生的草图组装。
接下来,我们利用映射回草图组装的Hi-C数据来实现染色体级别的scaffolding并纠正分型错误。使用PretextView可视化的Hi-C接触图使我们能够识别错误连接点,并将同一染色体的片段合并成单个scaffold。随后的双手动修复产生了每个单倍型23条染色体级别的scaffold。
然后我们专注于双手动修复后组装中存在的间隙。除了10号和X染色体外,在1、2、3、5、12、13、16、17、18和21号染色体中发现了间隙,包括一些着丝粒区域。为了解决这些剩余的间隙,我们应用了两种互补的间隙闭合策略。第一种涉及将超长ONT reads (>100 kb)映射到组装体上。被ONT reads跨越且两侧至少有40 kb映射序列的间隙最初用插入的读段片段进行修补。为了最小化ONT reads引入的错误,我们随后将PacBio HiFi reads与修补后的基因组比对,并使用这些高精度比对在填充区域重建一致序列。这种方法能够闭合Hap1的2、16和17号染色体以及Hap2的3、5、12和16号染色体上的间隙。在未发现超长reads在间隙两侧有广泛比对的情况下,我们利用了Verkko生成的组装图信息,如对Hap1的3号染色体。在这种情况下,我们识别了一个跨越61.4–62.3 Mb位置的气泡,包含两个末端之间的多个替代路径。为了解决它,我们将ONT reads映射到图,并发现比对明确支持通过unitigs的单一路径。使用这种基于图的方法,我们也能够闭合18号染色体两个单倍型上的间隙。
最后,我们没有修复两个与CHM13 18号染色体着丝粒和副着丝粒具有序列一致性的3.5 Mb和2.5 Mb contig,以及一个仅部分(171 kb)与CHM13 3号染色体着丝粒对齐,同时还显示与近端着丝粒染色体(SAACs)短臂额外比对的3 Mb长contig。因此,这些contig被排除在进一步分析之外,并仍分类为未分配。端粒被成功分配到所有染色体,不包括未放置的SAACs和10号染色体q臂(由于上述易位)。16号和X染色体的p臂端粒以及4号染色体的q臂端粒在Verkko产生的未分配序列中被识别,并随后通过手动修复恢复。最终RPE1v1.1组装的总大小对Hap1达到3.06 Gb,对Hap2达到2.99 Gb,与CHM13v2.0和HG002紧密接近,除了约43 Mb未解析的近端着丝粒染色体rDNA。Hap1和Hap2分别总共有15和16条染色体被无间隙地组装成T2T。基因组表现出良好的连续性(contig N50对Hap1等于136 Mb,对Hap2等于135 Mb),略低于T2T组装CHM13v2.0和T2T-YAO。据我们所知,我们的最终RPE1v1.1代表了第一个近完整、参考质量且完全 phased分辨率的人类二倍体实验室细胞系组装。
使用多种质量控制(QC)工具和策略评估了RPE1v1.1组装。我们首先评估了PacBio HiFi reads在整个基因组上的比对。覆盖图显示大多数染色体和两个单倍型呈均匀分布。正如预期,10号和X染色体显示出独特的覆盖模式。具体来说,我们在X染色体易位端粒内观察到覆盖下降,并在10号染色体重复长臂内观察到覆盖增加,反映了重排并与拷贝数增加一致。14、15、21和22号SAACs显示出覆盖增加,这是由于未分配的重复rDNA。为了进一步验证组装,过滤HiFi reads比对仅保留主要比对,并计算每个位置比对reads中最常见(主要)和次常见(次要)碱基的频率,并用NucFreq图显示。组装在少数特定基因组位置显示出较高水平的次要碱基,表明潜在的错误组装或错误:位于3、4和9号染色体的人类卫星(Hsat)区域内(总共约300 kb,包括着丝粒周围卫星内的约100 kb),18号染色体着丝粒,以及15和22号SAACs。其余染色体在两个单倍型上均显示出持续低水平的次要碱基,强调了组装的高质量和可靠性。
我们还使用了基于k-mer、无参考的评估流程Merqury,使用HiFi reads来确定基因组质量和完整性。我们获得Hap1的QV为64.1,Hap2为61.8,在其他高质量人类组装的范围内,并且两个单倍型的完整性均为99.8%。对于间隙已解决的区域,QV分数超过65(每8.5 Mb一个错误),并且没有报告突出的错误。Merqury还被用来计算和绘制k-mer谱,显示了一个与近完整、单倍型分辨的组装一致的多重性谱。为了进一步评估组装质量,我们使用CRAQ和Flagger工具分析了HiFi reads比对模式。CRAQ使用读段裁剪信息来识别区域和结构错误,并提供表达区域和整体组装质量(AQI)的指标。在最终的RPE1v1.1组装中,CRAQ仅检测到约2 Mb的潜在组装错误,主要对应于未解决的间隙区域和特定的端粒序列。AQI分数超过98,强调了组装的质量。AQI分数大于90通常被认为是参考质量组装的指标。Flagger使我们能够区分组装错误、坍塌区域和可靠序列。在6.05 Gb的总组装中,5.99 Gb被分类为无错误,其中2.4 Mb被识别为组装错误,55 Mb被识别为坍塌区域,主要对应于10号染色体重复区域。值得注意的是,18号染色体着丝粒(也显示出高频率的次要碱基)在其末端区域被标记为错误。这表明该区域可能存在组装问题,很可能是因为它在组装图中是扩展的纯合性运行的一部分,可能导致未分配的contig。由于Flagger识别出受间隙、错误或坍塌影响的区域数量和范围最大,我们使用这些区域的坐标在最终组装中定义了一个低置信度注释轨道。最后,我们使用compleasm评估了保守单拷贝直系同源基因的存在。分析鉴定出Hap1中99.71%的完整基因(其中3.28%重复),Hap2中99.73%(其中0.7%重复)。在Hap1中452个重复基因中,375个位于10号染色体重复长臂上,表明升高的重复率很大程度上是由该三倍体区域中存在三个基因拷贝驱动的。缺失基因分别为0.21%和0.09%,而碎片基因对Hap1和Hap2分别为0.08%和0.09%。
除了验证组装的完整性和正确性外,我们还测试了使用Hi-C信息对两个单倍型进行分型时是否存在错误。首先,我们使用SecPhase来识别具有错误单倍型比对的HiFi reads。没有读段需要重新定位,表明Hi-C数据足以将组装分型成两个单倍型块。为了进一步验证RPE1v1.1基因组的分型准确性,我们分析了由Sanders及其同事从80个RPE-1细胞生成的Strand-seq数据。Strand-seq是一种单细胞DNA测序技术,选择性靶向子代细胞中的亲本模板链,能够识别结构变异、染色体错误取向以及整个染色体的单倍型分型。来自每个RPE-1细胞的读段与RPE1v.1.1基因组比对,并使用breakpointR R包来检测链状态变化。对于每条染色体,最长的信息区域(当可用时)在大多数细胞中呈现映射到Watson和Crick链的读段。这种模式表明RPE1v1.1组装中正确的染色体尺度分型。
为了确认RPE-1在核型上是稳定的,我们细胞遗传学分析了细胞群中和不同批次中的潜在变异。我们在细胞遗传学水平上没有观察到核型变化,在所有批次的本研究中都稳定存在t(X;10)(Xq28;10q21.2)标记染色体。RPE-1细胞具有二倍体核型。确实,我们检测到大多数中期细胞有46条染色体,只有一部分显示44或45条染色体,很可能是由于中期制备过程中的染色体滑落。我们在任何分析的样本中都没有观察到非整倍体、多倍体、四倍体或假四倍体克隆的证据。此外,比较从不同来源获得的RPE-1批次,未观察到明显的染色体重排或其他细胞学上可见的染色体异常,这意味着RPE-1细胞具有显著稳定的二倍体资产,并且该组装代表了用于跨批次RPE-1实验和数据功能分析的通用参考。
总之,RPE1v1.1代表了一个参考质量的近完整组装,以支持精确的全基因组功能分析。
文献中描述的细胞遗传学和测序分析表明,RPE-1细胞系表现出稳定的标记染色体。该标记涉及10号染色体长臂的重复,因此在RPE-1细胞中存在三个拷贝,两个拷贝在完整的10号染色体中,一个额外拷贝易位到X染色体的端粒区域。使用我们实验室的相同用于测序实验的RPE-1细胞样本进行的核型分析证实了46,X,der(X)(Xpter→Xq28::10q21.2→10qter)核型,存在标记染色体t(X;10)(Xq28;10q21.2)。10号染色体和X染色体之间的染色体接触在两个单倍型的双重Hi-C接触图上也可视。为了在最终基因组组装中准确反映这种易位,我们以碱基对分辨率绘制了精确的断点,并相应地修复了组装。使用多步骤方法手动修复这种大的结构变异,从 phased单倍型组装开始。HiFi和ONT reads与二倍体基因组的比对揭示了嵌合比对,表明73.18 Mb的10号染色体q臂片段重复融合到X染色体的端粒区域。这种融合伴随着X染色体断点处3603 bp的微缺失。跨越重建连接处的连续读段比对进一步证实了断点的精确位置。读段比对分数表明易位涉及10号染色体Hap2和X染色体Hap1,产生了一条227.21 Mb的重排染色体。然而,由于基于Hi-C的分型独立地为每条染色体分配单倍型标签,无法确定易位是发生在相同单倍型的染色体之间(如先前报道)还是不同单倍型之间。解决这种模糊性需要进一步的验证或互补的分型方法。总之,我们的组装重现了RPE-1基因组的一些特征性特征,例如t(X;10)(Xq28;10q21.2)易位的存在。我们还能够定位完整的hTERT质粒序列。原始细胞系RPE-340是使用一个构建体(pGRN145质粒)引入hTERT而永生化的,从而产生了hTERT RPE-1细胞。为了识别插入的基因组位置,使用NUCmer和Minimap2将hTERT序列与RPE1v1.1组装比对。两种工具一致地将插入映射到Hap2的20号染色体p臂。使用SnapGene重建了完整的15 kb质粒序列。根据NCBI在基因组提交期间的要求,质粒序列在RPE1v1.1组装中被屏蔽。
生成了近完整的人类基因组后,我们推断RPE1v1.1是少数可用的染色体级别组装之一,可用于理解人类细胞系之间和个体间的全基因组水平多样性。先前使用HG002 phased二倍体基因组进行的研究表明,同一个体的两个单倍型之间的差异影响近一半的编码区域,最高水平的多态性集中在着丝粒区域。为了探索RPE1v1.1二倍体基因组内的单倍型间变异,我们首先使用NUCmer和dnadiff测量了序列一致性和比对长度。平均而言,单倍型在471 kb的片段上对齐,序列一致性为99.83%。393 Mb的Hap1与Hap2不对齐,323 Mb的Hap2与Hap1不对齐,反映了两
生物通微信公众号
知名企业招聘