
-
生物通官微
陪你抓住生命科技
跳动的脉搏
哺乳动物内源性G-四链体的进化保守性揭示其与复杂性状的关联
【字体: 大 中 小 】 时间:2025年09月02日 来源:Genome Biology 9.4
编辑推荐:
本研究通过整合EndoQuad数据库和G4 CUT&Tag数据,构建了人类内源性G-四链体(eG4s)在哺乳动物中的进化图谱。研究人员开发了基于大语言模型的预测工具eG4finder,鉴定出92,910个高度保守的eG4s,发现其富集于发育和衰老通路,具有更强的转录调控活性和转录因子结合能力。该研究揭示了eG4s的进化保守模式与其调控功能及人类复杂性状的密切关联,为理解非经典DNA结构的生物学意义提供了新视角。
DNA分子除了经典的B型双螺旋结构外,还能形成多种非经典二级结构,其中G-四链体(G-quadruplex,G4)因其独特的四链拓扑结构和重要的生物学功能备受关注。G-四链体由富含鸟嘌呤的DNA序列折叠形成,通过Hoogsteen氢键连接相邻G-碱基构成平面四联体,这些四联体层层堆叠形成稳定的三维结构。虽然早期研究主要通过生物信息学预测和体外实验鉴定潜在的G-四链体序列(PQS),但越来越多的证据表明,只有部分PQS能在活细胞内真实形成内源性G-四链体(endogenous G-quadruplex,eG4)。这些eG4s被发现富集在基因调控区域,作为转录因子结合枢纽参与基因表达调控,塑造转录组景观。然而,关于eG4s在哺乳动物进化过程中的保守模式及其与人类复杂性状的关联仍知之甚少。
针对这一科学问题,Ze-Hao Zhang等研究人员在《Genome Biology》发表了题为"Mammalian conservation of endogenous G-quadruplex reveals their associations with complex traits"的研究论文。该研究通过整合EndoQuad数据库(包含41种人类细胞系的eG4数据)和自主生成的G4 CUT&Tag数据(覆盖7种细胞系),构建了最全面的人类eG4参考注释集。利用Zoonomia联盟提供的241种哺乳动物基因组比对数据,系统分析了人类eG4s的进化保守模式,鉴定出三类具有不同进化特征的eG4s:高度保守型(C1)、活跃进化型(C2)和灵长类特异型(C3)。特别值得关注的是,研究人员开发了基于DNABERT-2大语言模型的eG4预测工具eG4finder,该工具仅需DNA序列即可准确预测PQS形成eG4的潜力,为跨物种eG4研究提供了有力工具。
研究采用的关键技术方法包括:1)G4 CUT&Tag技术,使用特异性抗体BG4和Tn5转座酶复合体在7种人类细胞系中鉴定eG4;2)整合分析EndoQuad数据库的41种人类细胞系eG4数据;3)利用Zoonomia项目的241种哺乳动物基因组比对数据计算eG4的碱基比对率;4)开发基于DNABERT-2的eG4finder预测工具,并在小鼠、猪和鸡细胞系中验证其预测性能;5)整合分析表观基因组数据(包括ATAC-seq、DNase-seq、组蛋白修饰和DNA甲基化数据)和转录因子结合数据;6)基于GWAS Catalog和GTEx数据库分析eG4与复杂性状的关联。
研究结果部分主要包括以下发现:
"Mammalian evolutionary profiles of human eG4s"部分揭示,人类eG4s可分为三类进化模式:高度保守型eG4s(C1)在大多数哺乳动物基因组中碱基比对率≥90%,在92.9%的基因组中比对率≥50%;活跃进化型eG4s(C2)主要在灵长类基因组中保守;灵长类特异型eG4s(C3)在非灵长类基因组中比对率≤10%。UMAP降维分析显示这三类eG4s形成连续谱系,其中C1 eG4s位于一端,表现出最高的序列保守性(PhastCons评分)。
"Evolutionary contribution of transposable elements to primate-specific eG4s"部分发现,转座元件(TE)对灵长类特异eG4s的进化扩散有重要贡献。51.5%的灵长类特异eG4s与TE重叠,特别是SINE-VNTR-Alus(SVAs)和内源性逆转录病毒1(ERV1s)显著富集。不同灵长类分支特异的eG4群体由不同TE家族驱动进化扩散。
"The tool eG4finder: an effective eG4 predictor"部分介绍了新开发的eG4预测工具。eG4finder基于DNA序列即可预测PQS形成eG4的潜力,其预测分数与PQS在细胞系中的出现频率(eG4重现率)高度相关(r=0.78)。性能评估显示,eG4finder的AUROC(0.94)和AUPRC(0.86)显著优于其他G4预测工具,且在小鼠、猪和鸡基因组中也表现出良好预测性能。
"Evolutionary conservation patterns indicate the structure conservation and functions of eG4s"部分通过跨物种eG4预测验证了结构保守性。在非人类灵长类中,73%的C1 eG4s结构保守,而在啮齿类中这一比例降至17%。功能富集分析显示,C1 eG4s显著富集于胚胎器官形态发生、细胞命运决定、干细胞分化等发育过程,以及昼夜节律调控、细胞衰老、端粒维持等衰老相关通路。
"Highly conserved eG4s are enriched in promoters and exhibit epigenomic signatures of transcriptional activation"部分表明,C1 eG4s显著富集于启动子区(特别是转录起始位点附近),具有更高的染色质可及性(ATAC-seq和DNase-seq信号)和更多的转录激活相关组蛋白修饰标记(H3K4me3、H3K27ac等)。DNA甲基化分析显示C1 eG4s更可能保持低甲基化状态,保护邻近区域免受表观沉默。
"TF-binding proficiency elucidates enhanced regulatory potential of highly conserved eG4s"部分发现,C1 eG4s能结合更多种类的转录因子(TF多样性更高),83.5%的TF在C1 eG4s中富集。这些eG4s特别富集COMPASS复合体组分(KMT2A/B/C等)、组蛋白乙酰转移酶CBP/p300和去甲基化酶(KDM4A/B/C等),形成独特的转录激活表观特征。
"Highly conserved eG4s most strongly enhance transcription"部分证实,含有C1 eG4s启动子的基因表达比例和水平显著高于其他类别。即使在增强子区域,含有C1 eG4s的增强子也表现出更强的靶基因激活能力,表明C1 eG4s是eG4集合中最强的转录激活元件。
"Variants in highly conserved eG4s most preferentially affect complex traits"部分揭示,C1 eG4s中GWAS SNPs的富集度和密度最高,而常见SNPs的富集度最低。特别是,影响高表型严重性基因(如致死基因)表达的eQTLs在C1 eG4s中富集程度最高。例如,位于PRKD2基因TSS附近C1 eG4中的rs402072变异,既是影响PRKD2表达的eQTL,也与1型糖尿病风险相关。
研究结论强调,高度保守的eG4s在哺乳动物进化过程中受到强烈选择约束,具有重要的调控功能。这些元件通过提供非经典转录因子结合位点,作为转录调控枢纽参与发育和衰老等关键生物学过程。更重要的是,高度保守eG4s与人类复杂性状密切相关,其携带的遗传变异可能通过影响基因表达导致疾病风险。该研究不仅系统描绘了eG4s的进化图谱,建立了高效的eG4预测工具,还为理解非编码区变异影响复杂性状的分子机制提供了新视角。这些发现将推动未来针对G-四链体相关疾病的精准医学研究和治疗策略开发。
生物通微信公众号
知名企业招聘