转座元件和DNA甲基化在CpG岛及CpG缺乏型调控元件形成中的作用
《Proceedings of the National Academy of Sciences》:Roles of transposable elements and DNA methylation in the formation of CpG islands and CpG-depleted regulatory elements
【字体:
大
中
小
】
时间:2025年10月27日
来源:Proceedings of the National Academy of Sciences 9.4
编辑推荐:
转座子(TEs)通过DNA甲基化在生殖细胞中沉默,导致宿主基因组CpG含量降低,形成CpG岛(CGIs)。CGIs中转录起始位点(TSSs)富集,而TEs含量显著低于周围区域。研究显示,CGIs的保守性可能源于对TE插入的进化性抑制,而TEs的扩散促进了非CGI调控元件(如TSSs和增强子)的CpG脱贫,为可逆DNA甲基化调控基因表达提供了基础。实验表明,TEs对邻近TSS的转录调控影响有限,且甲基化抑制主要作用于宿主DNA而非TE本身。该模型揭示了TEs与CGIs、DNA甲基化及基因调控网络间的协同进化关系。
转座元件(TEs)在脊椎动物基因组中占据了约一半的区域。此前,我们提供了证据表明,通过CpG甲基化对TE进行沉默,并随后发生脱氨基作用,导致TE以及宿主基因组中CpG序列的显著减少。目前,脊椎动物基因组中的CpG含量普遍较低,只有约1%的区域是CpG岛(CGIs)。我们提出了一种理论,认为CGIs的存在可能是由于TE插入的负选择作用,通过选择偏倚间接促成。此外,宿主DNA中CpG序列的稀释,使得调控元件(REs)得以进化,这些REs利用可逆的DNA甲基化来调控基因表达,包括组织特异性启动子和增强子等。
CGIs的起源尚不清楚。它们是相对较短的GC富集区域,具有比基因组其他部分更高的CpG二核苷酸比例。在人类基因组中,CGIs只占不到1%,但却包含了大约40%的转录起始位点(TSSs)。CGIs通常在体细胞中受到组蛋白修饰的调控,而在少数情况下,它们可能被CpG甲基化永久沉默。那些没有TSSs的CGIs被称为“孤儿CGIs”。尽管它们没有TSSs,但仍可能具有调控功能,如作为增强子。在这里,我们展示了CGIs中包含TSSs的情况远多于不含TSSs的情况,这表明CGIs在进化过程中由于避免TE插入而得以保留。
在之前的研究中,我们发现基因组大小与TE含量之间存在直接相关性,而与观察/预期(O/E)CpG含量之间存在反向相关性。我们提出,DNA甲基化的原始进化优势在于沉默TE,从而允许基因组扩展。这一过程进一步导致CpG序列的减少,因为DNA甲基化在生殖细胞中扩散到宿主DNA中。这一假设得到了支持,因为甲基化的CpG二核苷酸显示出比未甲基化的序列更高的C-T转换突变率。此外,有研究表明复制错误,可能涉及聚合酶ε(Pol ε),也可能导致C-T转换突变的产生,但在人类基因组中,5mC脱氨基作用似乎是这类突变的主要原因。
CGIs是唯一在脊椎动物基因组中显著缺乏CpG的区域,除了CGIs本身。这些短的CpG富集区域在总基因组DNA中占比不到1%,但与约40%的脊椎动物基因的启动子相关。然而,关于CGIs的起源,特别是它们与GC富集TE之间的相互作用,仍然知之甚少。我们假设CGIs之所以能够跨越进化时间而存在,是因为它们避免了TE插入,从而在生殖细胞中保持未甲基化状态。它们的保守性得到了青睐,因为它们通常作为关键基因的启动子,这些基因对细胞功能和发育至关重要。
在生殖细胞中,CGIs保持未甲基化状态,但它们在体细胞中的作用常被误解。体细胞中CGIs的甲基化并不频繁,也不参与基因表达的可逆调控。相反,它们被用作长期沉默TE和少数细胞基因的策略,例如静默的X染色体、生殖细胞特异性基因和印记基因。CGIs的可逆调控则是通过类比于PRC机制的染色质修饰实现的,这些机制在缺乏DNA甲基化或可识别CGIs的生物中已经进化。这表明,除了DNA甲基化外,染色质修饰在进化早期就已经出现。
在本研究中,我们扩展了之前的工作,不仅探讨了CpG减少对剩余99%基因组的影响,还分析了这些区域中大多数调控元件(REs)的存在,包括60%的TSSs和潜在增强子。我们还进一步研究了TE与CpG贫乏TSSs之间的相互关系。这些TSSs通常比位于CGIs中的TSSs更接近TE。它们也更频繁地与组织特异性基因相关。一个重要的结果是,CGIs的形成可能使DNA甲基化成为基因调控的一部分,而不是仅仅用于CGIs和现代表达TE的永久沉默。
在分析TE插入对基因表达的影响时,我们发现TE序列本身可能在基因调控中具有功能。例如,我们选择了两个被广泛研究的“干细胞性”基因,POU5F1(也称为OCT4)和NANOG,它们的启动子区域分别在TSS上游291 bp和213 bp处包含Alu元件。我们生成了包含这些Alu元件的荧光素酶报告构建体,并在NCCIT细胞中进行了测试。这些细胞是人类胚胎干细胞的替代品,其中POU5F1和NANOG的表达水平较高,因为所有必要的转录因子(TFs)都存在。结果表明,AluJ的缺失略微但显著地刺激了POU5F1的转录活性,而AluS的缺失对NANOG的转录活性影响较小。这些发现表明,Alu元件对启动子功能的影响较为有限。
我们进一步测试了这些构建体在体外甲基化后对荧光素酶表达的影响。结果表明,无论是否包含Alu元件,DNA甲基化对抑制荧光素酶表达的能力影响不大。这表明,TE序列的甲基化状态与宿主启动子序列的甲基化状态相似,对转录活性影响有限。这一发现支持了TE和DNA甲基化在进化过程中相互作用,使得基因组扩展成为可能。TE的插入以及周围序列的甲基化,导致这些区域的CpG含量逐渐减少,因为脱氨基作用和C-T转换突变在进化过程中发生。CGIs之所以能够避免这种减少,是因为它们在发育过程中扮演了关键角色,作为TSSs(CGIs_TSS)和增强子(孤儿CGIs)的调控区域。
CGIs的存在与它们在生殖细胞中的未甲基化状态密切相关。这一状态使得它们能够作为TSSs和增强子的调控区域,而不会受到TE插入的影响。这种保护机制可能是由于CGIs在进化过程中避免了TE的插入,从而保持未甲基化状态。CGIs的保守性得到了青睐,因为它们通常与维持细胞功能和发育至关重要的基因相关。这种机制也使得组织特异性基因的启动子和增强子能够利用可逆的DNA甲基化进行基因调控,从而形成复杂的多层表观遗传调控网络。
在讨论中,我们提出了一个模型,该模型基于TE插入和DNA甲基化机制的共同进化。在这一模型中,祖先基因组相对紧凑且富含CpG,类似于缺乏DNA甲基化的生物。随后,TE和DNA甲基化机制的共同进化导致了基因组的显著扩展。TE插入后,其周围序列的甲基化引发了这些区域CpG含量的逐渐减少。这一过程与C-T转换突变的自然发生相结合,导致CpG位点在进化过程中逐渐消失。CGIs之所以能够保留,是因为它们避免了TE插入,从而保持未甲基化状态,这使得它们能够作为TSSs和增强子的调控区域。而TE插入在非CGIs区域则可能促进了新的调控元件的形成,如TSSs和增强子。
CGIs的形成不仅与避免TE插入有关,还与它们在基因调控中的作用密切相关。CGIs通常与维持细胞基本功能的基因相关,而这些基因在进化过程中需要较少的调控因子。相比之下,组织特异性基因需要更广泛的调控因子集合,这些因子形成了复杂的调控网络。因此,CGIs的存在可能使得基因调控更加集中,而TE插入则可能促进了调控元件的多样化。
我们还发现,TE在基因组中的分布对基因表达有显著影响。在CGIs区域中,TE的插入较少,而在非CGIs区域中,TE的插入更为常见。这一现象可能与CGIs区域的CpG含量较高有关,使得它们在进化过程中不易受到TE插入的影响。此外,TE的插入可能促进了新的调控元件的形成,如TSSs和增强子,这些元件能够利用可逆的DNA甲基化进行基因调控。这一过程使得DNA甲基化能够作为“可调但可遗传”的表观遗传标记,从而参与更复杂的多层调控。
总的来说,CGIs的形成是TE插入和DNA甲基化机制共同作用的结果。它们的存在不仅与避免TE插入有关,还与它们在基因调控中的关键作用密切相关。CGIs能够作为40%基因的启动子,这些基因对生存和发育至关重要。TE的插入可能促进了新的调控元件的形成,使得DNA甲基化能够作为基因调控的一部分,而不是仅仅用于CGIs和现代表达TE的永久沉默。这一模型揭示了TE和DNA甲基化在进化过程中相互作用,使得基因组扩展成为可能,并促进了基因调控的多样化。
在实验方法部分,我们使用了hg38人类基因组和mm10小鼠基因组进行序列分析。TE注释来自RepeatMasker数据库。人类和小鼠的TSSs来自refTSS 4.0。CGIs的位置来自UCSC数据库,基于未掩码的基因组数据。在未掩码的hg38基因组中,CGIs的数量为51,402,符合Gardiner-Garden和Frommer的标准:GC含量大于50%且CpG的O/E比值大于或等于0.6,窗口长度为200 bp或以上。当使用400 bp或更长的阈值时,CGIs的数量减少到21,856。通常,研究人员使用掩码基因组来排除重复DNA,以确定CGIs。例如,SINEs-ALUY在活跃形式下长度约为300 bp,GC含量约为57%,CpG的O/E比值为0.95,因此可能被误认为CGIs。我们发现,未掩码的CGIs区域,长度小于400 bp,更可能由重复DNA和TE组成,而未掩码的CGIs区域,长度大于400 bp,更可能包含掩码的CGIs和重复DNA。在数量上,未掩码的CGIs由29,586个短区间(200-400 bp)和21,816个长区间组成,而通常使用的掩码CGIs则由9,411个短区间和18,538个长区间组成。
区间定位和重叠测量使用bedtools V2.31和/或R实现的GenomicRanges V1.58.0进行。默认情况下,GenomicRanges是1-based序列,而bedtools和UCSC文件是0-based,这意味着在1 bp重叠区间上可能存在一些差异。
在图1B中,我们使用排列测试计算了预期的TSS/区间重叠率。由于TSS和TE在基因组中不是随机分布的,因此在比较预期关联时,应排除空区域或其他基因组部分,其中TSS、TE和CGIs不存在。我们从实际CGI位置附近的1 Mb序列中选择与实际CGI区间相同数量和大小的随机区间,并在1,000次重复中比较这些随机区间与TSS位置,以确定预期的TSS-CpG关联频率。
在荧光素酶基的转录实验中,我们将荧光素酶载体克隆到pCpGL基本载体中。对于甲基化的质粒,荧光素酶载体在甲基转移酶M.SssI存在下,用甲基供体S-腺苷甲硫氨酸(SAM)进行体外甲基化。NCCIT细胞在6孔板中培养,24小时后用Lipofectamine LTX(Invitrogen)按照制造商的说明将荧光素酶构建体转染到细胞中。24小时后,细胞被裂解,使用Dual-Luciferase? Reporter Assay System(Promega)在Mithras自动注射器上进行荧光素酶实验。荧光素酶读数以单个读数形式记录,每组实验的Renilla-和Firefly-荧光素酶读数比值被记录下来,并取平均值。
在细胞培养部分,胚胎癌NCCIT细胞(美国典型培养物保藏中心)在RPMI 1640培养基中培养,补充10%胎牛血清。这些细胞作为人类胚胎干细胞的替代品,其中POU5F1和NANOG的表达水平较高,因为所有必要的转录因子都存在。通过这些实验,我们进一步验证了TE和DNA甲基化在基因调控中的作用,以及它们在基因组进化中的重要性。这些发现为理解基因组结构和功能提供了新的视角,并揭示了TE和DNA甲基化在进化过程中的复杂关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号