简单DNA重复序列的内在不稳定性塑造了进化上稳定的重复长度分布

《Nature Communications》:Inherent instability of simple DNA repeats shapes an evolutionarily stable distribution of repeat lengths

【字体: 时间:2025年12月10日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对基因组中长简单重复序列(STR)过度富集这一长期未解之谜,通过分析T2T-CHM13等高质量基因组数据并结合贝叶斯推断计算模型,首次证明仅由重复序列不稳定性(包括扩张、收缩和中断等突变过程)的动态平衡即可解释其分布特征,无需引入自然选择。该研究为理解重复序列相关疾病的进化起源和基因组稳定性维持机制提供了新视角。

  
在人类基因组中,超过2.5%的DNA由简单重复序列(Short Tandem Repeats, STRs)构成,这些看似单调的序列却隐藏着巨大的生物学意义和健康风险。简单重复序列,也称为微卫星DNA,是由短序列基序(如单核苷酸、二核苷酸、三核苷酸等)首尾相连直接重复而成。在随机DNA序列中,遇到长简单重复序列的概率应随其长度增加呈指数级下降。然而,现实情况恰恰相反,在人类乃至大多数生物基因组中,都存在着远超随机预期的长简单重复序列。更令人费解的是,正是这些过长的重复序列导致了日益增多的重复扩展疾病,如亨廷顿舞蹈症、肌强直性营养不良等严重遗传病。
这种矛盾现象——长重复序列既普遍存在于基因组中,又可能导致严重疾病——引发了长达三十年的科学争论。传统观点认为,自然选择可能保留了这些长重复序列,因为它们可能具有某些生物学功能,如端粒和着丝粒重复序列的功能。然而,这种解释是否必要?是否存在更基本的机制可以解释这一现象?
由Ryan J. McGinty、Daniel J. Balick、Sergei M. Mirkin和Shamil R. Sunyaev组成的研究团队在《Nature Communications》上发表的最新研究给出了一个颠覆性的答案:基因组中长简单重复序列的过度富集可能完全是突变过程自身动态平衡的结果,而非自然选择的产物。
为了回答这一基本问题,研究人员利用端粒到端粒(Telomere-to-Telomere, T2T)完整人类基因组参考序列,首次精确组装了全基因组范围内的简单重复序列长度分布(Distribution of Repeat tract Lengths, DRL)。通过分析超过300种哺乳动物基因组,他们发现重复长度分布的形态在进化时间尺度上表现出惊人的稳定性。所有观察到的基因组都含有过量的长重复序列,这些序列有可能发展为重复扩展疾病。
研究团队测量了重复序列长度不稳定性的突变率,定量模拟了每代突变的作用,并观察了相应的长期行为如何塑造重复长度分布。他们发现,短重复序列似乎是随机替换的直接结果,而较长的重复序列(约10个核苷酸以上)则是在扩张、收缩和中断之间快速突变的动态平衡中出现和持续的。
关键技术创新点包括:利用T2T-CHM13及300多种哺乳动物基因组数据构建重复长度分布(DRL);整合9,387个短读长 trio测序数据和6,084个 popSTR数据集估计长度依赖性突变率;建立计算模型直接演化DRL,将长度改变突变重构为长度区间间的转换;采用近似贝叶斯计算(Approximate Bayesian Computation, ABC)框架进行贝叶斯推断和参数化模型比较;构建分析模型(偏微分方程PDE)研究稳态下的重复长度分布动力学。
结果
重复长度分布的特征与进化稳定性
研究人员发现,几乎所有基序的DRL都显示出超过约10核苷酸的长重复序列的过量存在,相对于随机打乱的对照组而言。这种分布在灵长类动物中变化极小,表明重复序列长度分布及其潜在维持机制在至少7000万年间基本保持稳定。这种高度保守的DRL进化直接表明了稳态平衡的出现。
重复序列长度变化的突变转换
研究证实了重复不稳定性的标志性特征:随着长度增加,扩张和收缩的速率迅速增加。结合两个数据集(pooled trio和popSTR)的估计表明,重复不稳定性速率随着长度单调增加,至少持续到数据变得嘈杂的长度范围。单单位长度变化在超过明显长度阈值后占主导地位,与重复不稳定性的开始一致。
DRL动力学的计算建模
为了理解全基因组分布,研究人员建立了一个计算模型,直接通过操纵每个长度区间的占据数来演化DRL。他们将突变的总效应视为确定性过程,以近似DRL在晚期的期望值,并将其解释为由模拟突变过程产生的稳态分布的近似。
贝叶斯推断和参数模型比较
通过构建贝叶斯推断程序,研究人员限制了与观察到的人类DRL稳态进化一致的重复不稳定性特性。他们测试了几种参数化方法,发现具有扩张和收缩偏倚不对称性(即偏倚)的模型具有最强的统计支持。具体而言,无论先验如何,具有最大贝叶斯因子的参数化是扩张和收缩具有不同指数和相关乘法常数的三维模型。
从稳态重复长度分布推断不稳定性速率
在幂律模型中,研究人员专注于具有最强统计支持的三参数乘数耦合模型。后验主要集中在恒定Δτ≡τκε值(大约0.3-0.6)的山脊上,表明扩张和收缩速率指数之间的差异比其具体值更重要。后验加权的DRL与人类全基因组分布非常相似,而95%最高密度区域(HDR)参数大致涵盖了推断程序中使用的灵长类动物DRL范围。
稳态下重复长度分布的维持
为了理解塑造和稳定重复长度分布的突变过程之间复杂的相互作用,研究人员构建了动力学的分析模型。该分析近似捕捉了突变过程达到稳态后DRL的行为。他们首先构建了一个离散方程,描述由于突变的确定性作用(即没有选择和突变过程中的随机性),在给定长度的重复数量在单代中的变化。然后,通过要求每个长度类别的进出变化总和在平衡后的每个时间步长消失,施加了稳态条件。
从DRL形状推断不稳定性开始
为了研究重复序列不稳定性起始长度信息在DRL形状中的编码,研究人员定义了完全参数化的速率曲线(省略所有经验速率估计),包括不稳定性速率超过替换参数的长度。应用相同的贝叶斯推断流程,他们发现扩张(λε)和收缩(λκ)的起始长度的边际分布高度受限,95% HDR孤立在λε=9,λκ=12-13。这重述了直接经验速率估计中观察到的长度范围,尽管推断中排除了所有此类数据。
应用于更长单位长度的重复序列
比较不同单位长度基序(如二核苷酸、三核苷酸)的重复不稳定性起始长度,发现尽管单位长度不同,但起始长度大致集中在6到12个核苷酸之间。这表明了对DRL扩展尾部的重复动力学的通用描述,尽管短长度处的几何部分存在明显差异。
讨论与结论
该研究构建了一个仅基于突变过程的重复进化模型,桥接了重复序列长度不稳定性的短期和长期观察。研究表明,仅突变就足以解释全基因组范围内重复序列长度分布的形态。基因组中长重复序列的丰度反映了重复不稳定性的快速开始和初始扩张偏倚,而不是自然选择。这一观察并不排除在特定基因座上的选择,无论是有益的还是疾病相关的,只要这些只占基因组中重复序列的一小部分。
长度依赖性扩张-收缩偏倚在新生估计中是明显的;将这一特性纳入突变模型足以由于显著的收缩偏倚在有限长度处截断分布。分布的长尾是在扩张、收缩和裂变的动态平衡中产生和维持的。这隐含地防止了重复序列增长到疾病相关长度,表明作为疾病预防机制的自然选择可能不是必需的。
该研究提供了对处于疾病进展风险中的重复序列长度普遍存在的潜在解释。首先,由于重复序列长度不稳定性的快速开始和随后的主导作用,短重复序列和长重复序列的动力学解耦。短重复序列动力学仅由替换决定,而长重复序列主要受不同的突变力影响,表现出快速扩张和收缩以及更高的重复序列裂变率。在长重复序列中,中等长度的重复序列主要经历基于替换的裂变,而最长重复序列的突变实际上是独立于替换的。
如果选择在直接修改重复序列长度方面作用很小,那么稳态分布的保守性意味着潜在的突变机制(即DNA复制和修复)是高度保守的。通常,这些机制在维持整个基因组的序列保真度方面发挥着广泛作用,主要防止单核苷酸突变;由于目标尺寸大得多,负责单位点突变和不稳定性驱动的长度变化的机制不太可能针对后者的特性进行优化。因此,长重复序列的丰度可能是维持全基因组序列保真度的机制的多效性功能的不可避免的结果。
总的来说,这项研究通过整合高质量基因组数据、大规模突变率估计和复杂的计算建模,提供了令人信服的证据,表明简单DNA重复序列的内在不稳定性本身足以塑造并在进化时间尺度上维持其长度分布。这一发现挑战了关于自然选择在维持基因组重复序列中作用的传统观点,并为理解重复扩展疾病的起源和基因组进化提供了新的框架。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号