基于筛查和机器学习的预测方法,用于筛选能够增强翻译过程并减少大肠杆菌(Escherichia coli)中核糖体停顿的肽类

《RSC Chemical Biology》:Screening and machine learning-based prediction of translation-enhancing peptides that reduce ribosomal stalling in Escherichia coli

【字体: 时间:2025年10月26日 来源:RSC Chemical Biology 3.1

编辑推荐:

  高效合成生物学中的翻译增强肽筛选与机器学习预测研究。通过构建随机四肽库筛选出抑制E. coli SecM AP介导核糖体停滞的TEPs,如FSYD、VSVD等,并验证其体外翻译增强效果。开发随机森林机器学习模型,利用Z/T/ST/VHSE等氨基酸物理化学特性及mRNA自由能参数,经三轮迭代训练后预测准确率提升至0.66。发现第四位氨基酸亲水性及带电特性与翻译增强活性相关,序列偏好性显示D、E、N等极性氨基酸富集。研究成果为设计高效合成生物学模块提供新策略

  在生物合成领域,高效蛋白质合成是实现复杂基因工程和工业应用的关键环节。尽管近年来在基因设计、密码子优化等方面取得了显著进展,但蛋白质表达水平仍受到多种因素的制约,包括启动子强度、mRNA序列结构以及tRNA的可用性等。这些因素往往导致目标蛋白(POI)的产量受限,进而影响合成生物系统中基因表达调控的精确性与稳定性。因此,探索能够提高翻译效率的新型短肽序列,对于提升蛋白质合成的效率和可靠性具有重要意义。在本研究中,我们通过构建一个随机化的人工四肽库,系统地筛选出一系列能够缓解由停顿肽(APs)引起的核糖体停滞的翻译增强肽(TEPs),并进一步利用机器学习方法进行预测和优化,为合成生物学提供了新的工具和策略。

本研究的重点在于解决由SecM AP(一种在大肠杆菌中广泛存在的停顿肽)引发的核糖体停滞问题。SecM AP在翻译过程中会与核糖体的出口通道相互作用,导致翻译暂停,特别是在其特有的停顿基序区域。这种停滞机制在自然界中可能具有一定的调控功能,例如调控secA基因的表达,从而影响蛋白质跨膜转运过程。然而,在生物技术应用中,这种机制往往成为蛋白质高效表达的障碍。为了解决这一问题,我们提出了一种新的策略,即通过插入短肽序列,来改善由SecM AP导致的翻译效率下降。

我们发现,当这些短肽被设计为在SecM AP上游直接插入时,它们能够显著增强蛋白质合成过程。例如,之前研究中发现的“SKIK”肽(由Ser-Lys-Ile-Lys组成)在体内和体外翻译系统中均表现出良好的翻译增强效果。在本研究中,我们进一步扩展了这一发现,构建了一个包含16万个四肽组合的随机化人工库,并通过体内筛选系统确认了其中一些肽能够有效缓解SecM AP引起的核糖体停滞。这些筛选结果表明,某些特定的氨基酸排列可能在翻译过程中发挥关键作用,尤其是在第四位氨基酸的选择上。

通过分析筛选结果,我们发现第四位氨基酸对翻译增强效果具有显著影响。例如,某些肽在第四位包含天冬氨酸(D)时,表现出更强的翻译增强能力。这表明,氨基酸的物理化学性质,如疏水性、极性以及其在核糖体通道中的行为,可能在翻译过程中起到重要作用。为了更深入地理解这些特性,我们利用了多种氨基酸描述符,包括Z-scale、T-scale、ST-scale、VHSE-scale和EnsembleEnergy等,这些描述符能够有效捕捉氨基酸之间的相互作用及其对翻译过程的潜在影响。通过将这些描述符作为输入特征,我们训练了一个基于随机森林算法的机器学习模型,用于预测哪些四肽序列具有较高的翻译增强潜力。

值得注意的是,尽管随机森林和XGBoost这两种机器学习方法在预测精度上各有优势,但它们在本研究中表现出相似的趋势。在第一轮训练中,模型的预测与实验测量值之间的相关系数仅为0.50,但在后续的训练中,随着更多实验数据的引入,相关系数逐步提升至0.64(随机森林)和0.63(XGBoost)。这表明,随着训练数据的积累,模型的预测能力得到了显著增强。此外,我们还通过迭代训练方式,逐步优化模型参数,并通过实验验证其预测结果,从而提高了模型的准确性和实用性。

在模型训练和预测过程中,我们发现某些氨基酸描述符在整个训练过程中始终具有较高的重要性。例如,T-scale的第三主成分(T3)、ST-scale的第五主成分(ST5)和Z-scale的第五主成分(z5)被多次识别为关键预测变量。这些描述符反映了氨基酸之间的拓扑关系、三维结构特征以及它们在核糖体通道中的行为模式。这种一致性表明,模型能够有效识别出与翻译增强相关的氨基酸特性,从而为设计新的TEPs提供了理论依据。

此外,我们还通过序列logo和Sankey图等可视化手段,对预测出的高活性肽序列进行了进一步分析。序列logo显示,这些肽序列在所有位置都偏好于亲水性氨基酸,尤其是天冬氨酸(D)在第四位的位置上更为常见。Sankey图则揭示了某些常见的二肽基序,如NN、SN、NS、ND、NT和NP,这些基序可能在翻译增强过程中起到关键作用。这些发现不仅有助于理解TEPs的作用机制,也为后续的肽设计提供了方向。

在实验验证阶段,我们对预测出的高活性肽进行了体外翻译实验,以确认其在细胞外环境中是否能够有效增强蛋白质合成。结果显示,这些肽在体外系统中确实表现出良好的翻译增强效果,且其增强能力与体内筛选结果基本一致。这表明,虽然体内和体外系统的环境存在差异,但这些短肽在两种系统中均能够发挥积极作用,进一步验证了其作为翻译增强模块的通用性。

本研究的意义在于,它不仅提供了一种新的方法来识别和预测具有翻译增强功能的短肽,还为合成生物学中的基因工程提供了实际应用的可能。通过将这些短肽插入到目标基因的上游,可以有效缓解由停顿肽引起的核糖体停滞,从而提高蛋白质产量。这种方法具有高度的模块化和可编程性,可以灵活应用于不同的基因构建中,以优化代谢通路、提高生物分子的生产效率。

此外,我们还开发了一种基于机器学习的预测模型,该模型能够从庞大的序列空间中快速筛选出具有潜在翻译增强能力的肽序列。这种数据驱动的方法不仅提高了筛选效率,还减少了对大规模实验数据的依赖,为未来在不同生物系统中设计和应用TEPs提供了新的思路。通过将机器学习与实验验证相结合,我们成功构建了一个高效的肽筛选和预测体系,为生物技术的发展带来了新的可能性。

综上所述,本研究通过构建和筛选一个随机化四肽库,结合机器学习方法,成功识别出一系列能够缓解由SecM AP引起的核糖体停滞的翻译增强肽(TEPs)。这些肽在体内和体外系统中均表现出良好的翻译增强效果,表明其具有一定的通用性。同时,通过深入分析这些肽的物理化学特性,我们进一步揭示了其增强翻译效率的潜在机制。这些发现不仅为合成生物学提供了新的工具,也为未来在不同生物系统中设计和优化蛋白质表达系统奠定了基础。未来的研究可以进一步探索这些TEPs在其他生物体中的应用,以及它们在不同停顿基序中的作用,从而推动合成生物学和生物技术的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号