无义错误的重要性:估算蛋白质合成过程中核糖体脱落的速率及其影响

《PLOS Genetics》:The importance of nonsense errors: Estimating the rates and implications of ribosome drop-off during protein synthesis

【字体: 时间:2026年06月11日 来源:PLOS Genetics 3.7

编辑推荐:

  翻译(translation)过程不仅能量消耗高,而且与转录(transcription)和复制(replication)相比,差错率也相对较高。翻译过程中的无义错误(nonsense errors)发生于核糖体在到达终止密码子(stop codon)之前即从

  
翻译(translation)过程不仅能量消耗高,而且与转录(transcription)和复制(replication)相比,差错率也相对较高。翻译过程中的无义错误(nonsense errors)发生于核糖体在到达终止密码子(stop codon)之前即从转录本上脱落,从而使细胞在一条不完整且很可能无功能的蛋白质上投入能量。无义错误会给细胞带来潜在显著的能量负担,因此,对其发生频率及能量成本进行定量至关重要。研究人员在此提出了一个核糖体移动模型,用于基于高通量核糖体谱分析(ribosome profiling)数据估算蛋白质产量、延伸速率以及无义错误速率。将该模型应用于酿酒酵母(S. cerevisiae)的代表性核糖体谱分析数据集后发现,无义错误速率在不同密码子之间存在显著差异,且此类错误给细胞造成的能量负担与核糖体停顿(ribosome pausing)相当。总体而言,研究人员提供了多方面证据,表明针对无义错误的选择作用是塑造蛋白编码序列进化,尤其是密码子使用偏倚的重要力量。
该研究发表于《PLOS Genetics》,聚焦蛋白质翻译过程中长期被低估的一类错误——无义错误(nonsense error,亦称提前终止错误或过程性错误)。蛋白质合成是细胞内能量开销最高的生物学过程之一,而翻译相较于DNA复制和转录具有更高错误率。既往研究多集中于错义错误(missense error),即错误氨基酸被掺入多肽链;相较之下,无义错误会导致核糖体在到达终止密码子前提前停止翻译,产生截短且通常无功能的蛋白质,其造成的能量浪费可能更直接、更严重。尽管已有理论指出无义错误可能影响密码子使用偏倚(codon usage bias)和蛋白编码序列进化,但由于缺乏可在全转录组尺度上定量此类错误的方法,其进化作用一直缺少系统评估。因此,开展本研究的核心动因在于:建立可从核糖体谱分析数据中推断无义错误速率的模型,进而评估其在翻译成本与编码序列进化中的真实贡献。

为解决这一问题,研究人员构建了核糖体停顿与无义错误联合模型PANSE(PAusing and NonSense Error),利用核糖体足迹(ribosome footprint,RFP)在密码子水平的分布,联合估计基因特异性的翻译起始率、密码子特异性的延伸速率以及密码子特异性的无义错误速率。模型应用于酿酒酵母(S. cerevisiae)高质量核糖体谱分析数据后表明:无义错误不仅可以从核糖体密度变化中被检测到,而且不同密码子的无义错误速率存在跨多个数量级的差异;这类错误带来的能量负担与核糖体停顿的间接成本相近,甚至可能更高。研究进一步显示,酿酒酵母基因组中存在广泛信号表明自然选择倾向于降低无义错误成本,尤其表现为高表达基因回避高无义错误概率密码子,以及高无义错误概率密码子更倾向分布于编码序列5′端。论文的重要意义在于,它推动了对密码子使用偏倚传统解释框架的修正:驱动同义密码子进化的不仅是加快延伸、减少停顿的选择压力,还包括减少无义错误及其能量浪费的选择压力。

在技术方法上,研究人员首先下载并处理酿酒酵母核糖体谱分析数据,主要采用Weinberg等人的数据集,并补充分析Wu等人、Ferguson等人以及Chou等人的独立数据集作为验证;其中主分析纳入3,112个蛋白编码基因。随后以PANSE模型对密码子水平RFP计数进行马尔可夫链蒙特卡罗(MCMC)拟合,并以偏差信息准则(DIC)比较“无无义错误”“统一无义错误速率”“密码子可变无义错误速率”三类模型。研究还结合RNA-seq丰度、tRNA基因拷贝数(tGCN)、ROC-SEMPPR模型参数、序列置换检验、回归分析及成本函数计算,对模型参数、生物学关联和适应性信号进行了系统评估。

在研究结果部分,论文依次给出了多个关键发现。

“NSE rates vary across codons”
研究人员首先检验核糖体谱分析数据中是否能够识别无义错误,以及无义错误速率b是否在密码子间变化。DIC比较显示,允许无义错误存在的模型明显优于“不存在无义错误”的模型,而允许b在密码子间变化的模型又优于“统一b”的模型,说明无义错误既可检测,又确实具有密码子特异性。估计结果显示,b跨越10-6至10-3数量级,而平均无义错误概率Pr(NSE)约为10-4量级,与既往在大肠杆菌和酿酒酵母中的估计相符。进一步分析发现,高无义错误速率与若干密码子性质相关:第三位单核苷酸变异即可成为终止密码子的密码子,其b更高;错义错误概率较高的密码子,其b也更高;已知易引发移码(frameshift)的密码子同样具有更高b。由此说明,无义错误并非仅由延伸速度慢所致,还受释放因子误识别、肽酰-tRNA脱落和移码倾向等因素共同影响。

“Nonsense errors are an unlikely explanation for the ‘5’-ramp’”
核糖体谱分析常观察到编码序列5′端核糖体密度升高,即所谓5′-ramp。研究人员利用PANSE参数模拟核糖体分布后发现,模型可较好重现编码序列后部区域的核糖体密度,但无法解释前200个密码子中真实数据所呈现的陡峭下降。如果仅基于前200个密码子拟合模型,则得到的无义错误速率显著偏高,对应的Pr(NSE)约为0.004,这意味着仅约45%的起始核糖体能到达第200个密码子,缺乏生物学合理性。因此,研究结论是:无义错误最多只能部分解释5′-ramp,不能作为该现象的主要来源。

“The probability that translation is completed varies greatly between transcripts”
由于不同密码子具有不同延伸速率c和无义错误速率b,不同基因的密码子组成差异将直接影响核糖体完成整段翻译的概率φ。研究估计,在全基因组范围内,核糖体完成翻译的中位概率约为0.92,四分位距为0.87–0.95。编码序列(CDS)长度是决定φ的重要因素:CDS越长,核糖体在翻译过程中遭遇无义错误的机会越多,因此完成翻译的概率越低。研究还将PANSE估计结果与基于完全非对称排斥过程(TASEP)的理论模拟进行比较,发现二者高度相关,说明PANSE能够较好刻画不同转录本间翻译完成概率的异质性。

“Evidence supports adaptation to reduce nonsense errors”
围绕自然选择是否塑造了降低无义错误成本的密码子使用模式,研究人员从位置效应与表达量效应两方面给出证据。首先,在基因内部,随着多肽链逐步延长,若后部发生无义错误将浪费更多已投入资源,因此理论上对无义错误的选择应沿CDS由5′向3′增强。实证分析显示,5′端富集的密码子具有更高Pr(NSE),而3′端不呈现相同模式;同时,核糖体在沿CDS推进时成功延伸的概率总体上升,且这一趋势显著强于多种置换零模型。其次,在基因间,高表达基因因为翻译频次高、总能量通量大,理应承受更强的抗无义错误选择。结果显示,基因表达量与翻译完成概率φ正相关,在控制长度后这一相关性更强;ROC-SEMPPR估计的选择系数Δη与同义密码子间相对Pr(NSE)差异良好相关,说明高表达基因倾向避免高无义错误概率密码子。总体上,这些结果共同支持:自然选择确实在基因内和基因间两个层面塑造密码子使用,以降低无义错误风险。

“The energetic costs of nonsense errors are likely substantial”
研究人员进一步从能量学角度定量无义错误的代价,构建了包含固定直接成本、固定间接成本、可变直接成本和可变间接成本的翻译成本模型。固定直接成本来自翻译起始与延伸本身,固定间接成本主要反映核糖体停顿的代价;可变成本则指无义错误发生时被浪费的直接与间接投入。结果显示,在大多数基因中,无义错误相关的可变成本与核糖体停顿的固定间接成本处于同一数量级;按另一组成本参数估计时,无义错误成本甚至普遍高于停顿成本。每密码子的预期翻译成本随基因表达升高而降低,说明高表达基因更优化。进一步的同义密码子置换检验表明,59%的基因真实序列成本低于置换序列平均成本,且高表达和长基因更可能表现出降低无义错误成本的适应信号。由此可见,无义错误并非罕见而可忽略的噪音,而是足以影响基因组层面密码子组织方式的重要成本来源。

“Parameter estimates across S. cerevisiae ribosome profiling datasets are consistent”
为评估结果稳健性,研究人员在多个独立酿酒酵母核糖体谱分析数据集中重复拟合PANSE。尽管不同实验方案在5′-ramp强度、测序深度和覆盖度上存在差异,尤其Ferguson等数据更稀疏、估计噪声更大,但所得无义错误速率b与主数据集总体相关,表明PANSE捕捉到的无义错误信号具有跨数据集一致性。这一结果增强了模型推断的可信度。

在讨论部分,论文强调,无义错误对蛋白编码序列进化的影响长期被错义错误研究所掩盖。与错义错误不同,无义错误更可能直接导致蛋白质失活,因此即使平均发生频率较低,其适应性后果也可能更强。研究人员指出,PANSE虽然不区分具体机制,但其估计的b很可能综合反映了释放因子对感觉密码子的误结合、肽酰-tRNA脱落、核糖体移码及其相关序列背景效应。研究还讨论了5′端密码子使用模式可能受到多种选择压力共同影响,包括翻译起始效率、mRNA二级结构、5′-ramp假说以及抗移码选择等,但论文所观察到的多个模式,尤其是高Pr(NSE)密码子在5′端富集和沿CDS成功延伸概率递增,更符合“针对无义错误成本的选择作用”这一解释。与此同时,作者也指出模型仍有局限,例如未显式建模局部序列环境、未整合重复实验噪音、未纳入无义介导衰变(nonsense-mediated decay)等质量控制过程的额外成本,因此当前对无义错误代价的估计很可能是保守的。

研究结论部分可概括为:通过将翻译动力学模型应用于酿酒酵母代表性核糖体谱分析数据集,研究人员获得了多方面证据,证明无义错误在蛋白编码序列进化中具有重要且长期被低估的作用。总体上,酿酒酵母中59%的蛋白编码基因显示出降低无义错误成本的适应信号。过去解释密码子使用偏倚的主导假说强调减少核糖体停顿成本,但如果无义错误的成本与停顿成本相当甚至更高,则这一框架需要修正。因而,充分考虑无义错误的发生及其后果,对于理解广泛存在于各类群中的密码子使用偏倚进化具有关键意义。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号