编辑推荐:
本文通过对鹿鼠(Peromyscus maniculatus)四个亚种进行染色体水平的从头基因组组装,发现反转录转座子驱动小倒位,而大片段重复(SDs)和着丝粒卫星与大倒位相关,揭示了重复序列塑造染色体架构的机制,为理解基因组进化提供了重要依据。
研究背景
在哺乳动物的漫长进化历程中,尽管基因具有高度的保守性,但染色体上基因的组织形式却可能在较短的进化时间尺度内发生显著变化。核型(karyotype)作为生物体全套染色体的展示,为染色体重排提供了早期证据。例如,人类拥有 23 条单倍体染色体,而黑猩猩有 24 条,这是由于两条祖先灵长类染色体融合成了人类的 2 号染色体。此外,染色体臂数目的差异等核型特征也凸显了染色体重排的存在。染色体倒位(chromosomal inversions)是一种重要的突变形式,它能够抑制重组,在物种的适应性进化中发挥关键作用,甚至可能导致物种形成。然而,由于倒位是平衡多态性,用分子短读长测序数据难以检测,且其断点常位于高重复基因组区域,难以组装,因此,尽管长期以来细胞遗传学有相关证据,但人们对染色体倒位在基因组内的产生机制仍知之甚少。
鹿鼠作为研究染色体倒位分子基础的模式生物,具有独特的优势。自 20 世纪中期以来,细胞遗传学研究发现鹿鼠野生种群的核型存在广泛变异,其中着丝粒染色体数目在 16 到 40 之间变化,而染色体总数(2n = 48)却高度保守。近期研究表明,大量的倒位是鹿鼠核型变异的主要原因,包括着丝粒从近端着丝粒到中间着丝粒位置的重新定位。鹿鼠至少存在 21 种兆碱基规模的倒位多态性,部分倒位跨度超过 40 Mb,且这些倒位在鹿鼠物种内具有多态性,提示其可能具有较近的进化起源。
研究方法
为深入探究鹿鼠染色体倒位的起源,研究人员采用了一系列先进的实验技术和分析方法。首先,为了识别倒位并解析其断点,研究人员构建了四个鹿鼠亚种的从头染色体水平基因组组装。他们选择了两对亚种(P. m. bairdii x P. m. nubiterrae和P. m. gambelii x P. m. rubidus)进行杂交,产生 F1 杂交个体。在选择亲本时,基于已知的倒位多态性基因型,以最大化倒位的代表性。然后,运用 PacBio HiFi 长读长和 Dovetail Omni-C 邻近连接测序技术对两个杂交个体(一雌一雄)进行测序,从而获得每个杂交个体的单倍型解析基因组组装,代表四个亚种各自的基因组。
在基因组组装完成后,研究人员对其质量进行了严格的控制和评估。通过将四个组装与 Pman2.1.3 基因组进行比对,确保每个主要支架能正确映射到相应染色体,并根据亚种间的差异分析祖先信息,对相位错误进行手动调整。同时,利用 BUSCO 评估基因组的完整性,QUAST 评估组装的连续性,以及 inspector 检测潜在的组装错误,全面保障了基因组组装的质量。
为了深入了解基因组的组成和结构,研究人员对重复序列进行了挖掘和注释。使用 RepeatModeler 生成每个亚种的从头转座元件库,经过筛选和合并后,利用 RepeatMasker 对基因组中的重复序列进行注释,并定义了片段重复(segmental duplications,SDs)。此外,通过特定的方法预测着丝粒位置,分析 CpG 甲基化景观,以确定潜在的活性着丝粒。
在检测结构变异方面,研究人员将P. m. gambelii、P. m. rubidus和P. m. nubiterrae亚种的基因组与P. m. bairdii基因组进行比对,使用 SVIM - asm 和 SyRI 两种互补工具调用结构变异,再通过 SURVIVOR 合并结果,并过滤掉主要由卫星和简单重复组成的变异,最终获得了准确的结构变异数据集。
对于倒位的极化分析,研究人员选择了Peromyscus leucopus和Onychomys torridus作为外群物种,通过与它们的基因组进行比对,确定每个倒位的祖先和衍生等位基因,从而了解倒位的进化历史。
研究结果
通过对四个鹿鼠亚种的基因组组装和分析,研究人员取得了一系列重要发现。首先,这些基因组组装表现出高度的连续性,contig N50 范围从约 29.7 到约 33.7 Mb,BUSCO 完整性评分在约 96% 至 98% 之间,相较于之前的鹿鼠参考基因组有显著改进,如重复序列的代表性增加。
在评估核型多样性时,研究人员预测了大多数染色体的着丝粒位置。通过映射先前识别的P. maniculatus着丝粒卫星 PMSat,并结合 CpG 甲基化模式,确定了潜在的活性着丝粒。结果发现,24 条染色体中有 13 条在四个亚种间存在近端着丝粒和中间着丝粒核型的变异,表明四个基因组存在显著的核型变异性,与早期细胞遗传学研究结果一致。
比较染色体水平的基因组组装后,研究人员发现鹿鼠亚种间存在丰富的结构变异。共识别出超过 580,000 个结构变异(SVs),包括约 572,000 个插入或缺失(indels)、约 8,000 个倒位和约 1,000 个重复。虽然倒位数量比 indels 少,但影响的基因组范围约为 indels 的两倍(倒位约 30%,indels 约 15%),且倒位代表了鹿鼠中最大的结构变异,有 47 个倒位覆盖至少 1 Mb 的基因组,其中包含许多先前已识别的兆碱基规模倒位和 28 个新描述的大倒位。这些大倒位分布在 21 条染色体上,至少 14 个可能是 pericentric(包含着丝粒)的,表明倒位在鹿鼠基因组进化和着丝粒重新定位中起着重要作用。
研究还发现,大倒位在相同断点处反复出现。存在多个重叠倒位的例子,部分区域显示复杂的嵌套重排。通过与外群物种的比对,确定了一些独立衍生的倒位共享几乎相同的断点(在 10 kb 内),还有一些嵌套倒位顺序出现,同一断点反复出现。这表明相同的基因组区域可能参与不同倒位的形成。
在探究倒位断点与重复序列的关系时,研究人员发现不同大小的倒位与不同的基因组重复序列相关。短(<1 mb)倒位在断点处对转座元件(transposable elements,TEs)和 SDs 都有富集,包括所有三个活跃的反转录转座子亚类(长散在核元件 [LINEs]、短散在核元件 [SINEs]、长末端重复 [LTRs])。而兆碱基规模的倒位很少与 TEs 相关,主要在断点处与 SDs 重叠,且 SD 富集延伸数百 kb 超出倒位断点,同时大倒位断点处 PMSat 也有强烈富集,47% 的大倒位至少有一个断点位于 PMSat 阵列内。进一步分析发现,TEs 可能在介导短倒位中起重要作用,而 SDs 更可能促成大倒位的形成,且 SD - 和 PMSat - 相关的倒位明显比 TE - 相关的倒位更长,倒位大小与侧翼 SD 大小呈正相关。
研究人员还对 SDs 的景观和起源进行了研究。发现 SDs 在预测的着丝粒附近高度富集,通过比较 TE 和 SD 的 divergence 分布,以及分析 TE 在 SD 断点处的存在情况,表明 TEs 是鹿鼠基因组中 SDs 的基本来源。LINE 和 LTR 反转录转座子在着丝粒周围的偏向积累,可能解释了 SDs 在着丝粒附近的富集,进而有助于解释倒位断点在这些区域的富集。
对于着丝粒重复序列在倒位形成中的作用,研究人员分析了九个有 PMSat 阵列位于断点附近的大倒位。通过确定祖先单倍型,发现 6 个倒位在祖先单倍型的断点处有 PMSat 阵列,且这些阵列是反向的,支持了着丝粒介导的假说,即着丝粒重复序列之间的异位重组可能有助于鹿鼠倒位的形成。例如,3 号染色体上的一个倒位,其断点位于几乎 100% 相同、跨度超过 100 kb 的反向 PMSat 阵列上。
研究讨论
染色体倒位对物种进化具有深远影响。它能显著影响重组,当倒位是杂合子时,由于单倍型之间的对齐问题,倒位区域的重组会受到抑制。通过抑制重组,倒位可以将适应性等位基因连接成一个共同遗传的单倍型(或超基因),促进物种的适应性进化。在鹿鼠中,多个倒位就有助于局部适应,如一个 41 Mb 的倒位作为超基因,将两个适应森林的性状联系在一起。此外,倒位断点本身也可能通过破坏基因或基因表达导致表型变化。
本研究揭示了不同大小倒位的起源机制。较小(<1 mb)的倒位可能频繁由与反转录转座子相关的机制产生,这与在其他物种中的观察结果一致。反转录转座子可以通过异位重组产生倒位,高度同源的 TEs 更有可能参与非等位同源重组(non - allelic homologous recombination,NAHR),年轻的 TEs 可能对倒位形成尤为重要。鹿鼠基因组中 LTR 元件的大量入侵以及近期 LINE/SINE 的活性,可能通过 NAHR 在基因组中形成小倒位。
与小倒位不同,大(>1 Mb)倒位很少直接与 TEs 相关,而是与 SDs 密切相关。人类研究中也发现 SDs 在倒位断点处有记录,且较长的 SDs 与较长的倒位相关。本研究中,鹿鼠 SDs 与倒位长度的强相关性表明,较大的 SDs 可能促进较大倒位的形成,这可能是由于长重复序列在大基因组距离上相互找到的概率更高,或者是远距离染色体区域之间稳定重组复合体需要更长的序列相似性。此外,鹿鼠 SDs 在着丝粒附近的富集,以及其与 LINE 和 LTR 元件的关系,有助于解释大倒位断点在着丝粒附近的富集现象。
研究还发现,着丝粒卫星阵列在大倒位形成中可能发挥重要作用。鹿鼠基因组中存在多个大且高度相似的 PMSat 阵列,这在其他物种中很少见。虽然最初假设这些阵列是倒位介导重新定位的结果,但研究发现大多数侧翼有 PMSat 阵列的倒位可能是由远距离反向 PMSat 阵列之间的异位重组介导的。着丝粒卫星阵列由于其通过复制滑动进化、序列长且相似性高、位于基因贫乏区域等特点,可能成为基因组结构重排的强大驱动因素。
然而,本研究也存在一些局限性。研究人员无法识别所有倒位侧翼的同源反向重复,这限制了对倒位因果机制的全面理解。基因组组装在高度重复区域存在塌陷,影响了倒位断点检测的精度,可能导致无法识别一些因果重复。未来的端粒到端粒(T2T)基因组组装和着丝粒活性的实验验证,将有助于更好地解决这些问题,进一步明确着丝粒在鹿鼠倒位形成中的作用。
总体而言,本研究展示了重复序列与重排之间的复杂关系,揭示了小重复及其扩展如何导致大规模染色体变化,为理解影响基因组架构、重组和适应的突变过程提供了重要见解,也为未来跨物种研究着丝粒卫星阵列在倒位和结构变异进化中的作用奠定了基础。