
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类基因组中镜像重复序列的起源机制:STR扩张驱动H-DNA形成与基因组不稳定性
【字体: 大 中 小 】 时间:2025年07月03日 来源:Nucleic Acids Research 16.7
编辑推荐:
本研究通过分析端粒到端粒人类基因组序列,揭示长镜像重复序列(MR)完全源自简单串联重复(STR)的扩张,特别是能形成三链DNA结构(H-DNA)的嘌呤-嘧啶镜像重复(H-motif)显著富集。研究发现H-motif STR在达到稳定H-DNA结构的临界长度(约25 nt)后,因结构介导的基因组不稳定性而更易扩张,为理解重复序列相关疾病发病机制提供了新视角。
在基因组学的探索历程中,DNA重复序列始终是科学家们既着迷又困惑的谜题。早在上世纪80年代,研究者们就发现基因组中存在三种语言学重复模式:正向重复、反向重复和镜像重复。其中镜像重复因其独特的对称性尤为特殊——它们像DNA双链上的回文诗,但功能意义长期成谜。直到科学家发现部分镜像重复能形成三链DNA结构(H-DNA),这个谜团才初现曙光。H-DNA需要一条全嘌呤链和一条全嘧啶链以镜像对称排列,通过非沃森-克里克键形成稳定的三链结构,这种结构会阻碍DNA复制和转录,与多种遗传疾病相关。然而,基因组中大量存在的长镜像重复序列究竟如何产生?为何富含嘌呤-嘧啶的H-motif会异常富集?这些问题一直悬而未决。
哈佛大学医学院、莫斯科国立大学和塔夫茨大学的研究团队在《Nucleic Acids Research》发表的研究给出了突破性答案。他们利用最新完成的端粒到端粒人类基因组参考序列T2T-CHM13,系统分析了各类重复序列的分布特征,发现长镜像重复几乎全部源自简单串联重复(STR)的扩张。更惊人的是,能形成H-DNA的嘌呤-嘧啶镜像重复(H-motif)在达到约25个核苷酸的临界长度后,出现显著富集现象,这恰好与H-DNA开始阻碍DNA复制的长度阈值吻合。
研究采用多组生物信息学分析方法:首先建立全基因组镜像重复、反向重复、正向重复和G4结构的数据库;开发算法量化各重复序列中的STR含量;通过概率模型计算随机基因组中镜像重复的预期数量;特别关注rDNA区域中H-motif的分布;并设计对照实验验证结果可靠性。
镜像重复的STR本质
研究发现,随着镜像重复长度增加,其STR含量呈单峰分布并趋近100%,表明长镜像重复完全由STR扩张形成。相比之下,反向重复和正向重复的STR含量呈多峰分布,说明它们有STR依赖和非依赖两种形成机制。
H-motif的异常富集
嘌呤-嘧啶镜像重复(H-motif)在长度超过25 nt后显著多于其他类型镜像重复。对应的STR分析显示,(A1-3G1-3)n等H-motif STR在总长度约50 nt(对应25 nt镜像茎长度)后出现富集拐点。
rDNA区域的验证
尽管近期研究认为rDNA区域富含H-DNA序列,但本研究发现rDNA对全基因组长H-motif贡献有限,且长度分布与基因组其他区域一致。
这项研究确立了STR扩张作为镜像重复产生的唯一机制,解开了基因组中长镜像重复的起源之谜。更关键的是,它揭示了H-motif STR在达到能形成稳定H-DNA的长度后,会因结构介导的复制障碍而进入加速扩张的"恶性循环",这为理解Friedreich共济失调等重复扩增疾病的发病机制提供了分子基础。研究提出的"长度阈值效应"模型指出,当H-motif超过25 nt临界长度,H-DNA结构稳定性呈指数增长,导致复制叉停滞、修复错误等基因组不稳定性事件频发,进而促使重复序列进一步扩张。这种自催化机制解释了为何H-motif在基因组中异常富集,尽管它们对细胞具有潜在危害。
该发现对医学研究具有重要启示:在诊断重复序列相关疾病时,应重点筛查STR扩张而非寻找"新生"的镜像重复;所有已知的疾病相关H-motif本质上都是STR,如Friedreich共济失调的(GAA)n、X连锁肌张力障碍帕金森病的(CCCTCT)n等。研究预测,随着长读长测序技术的发展,更多由H-motif STR扩张引发的疾病将被发现,这些疾病往往表现为进行性加重的临床症状,与体细胞中持续发生的重复扩增密切相关。
这项研究不仅解决了基因组学领域长期悬而未决的基础问题,更为重复扩增疾病的诊断和治疗策略开发提供了新思路。未来研究可进一步探索H-DNA结构如何精确干扰DNA代谢,以及开发靶向这些结构的治疗手段,为相关遗传病患者带来希望。
生物通微信公众号
知名企业招聘