基于人工智能的mRNA 5' UTR序列优化策略显著提升翻译效率

【字体: 时间:2025年09月26日 来源:iScience 4.1

编辑推荐:

  本研究针对外源mRNA翻译效率低下的难题,开发了名为UTailoR的人工智能驱动计算框架。该研究通过深度学习判别模型精准预测5' UTR序列的翻译效率,并创新性地构建生成模型为特定mRNA定制高效UTR序列。实验验证表明优化后序列的翻译效率提升约200%,且优于当前通用优化策略。研究成果为mRNA药物研发提供了高效精准的序列优化工具,可通过在线平台(http://www.cuilab.cn/utailor)开放访问。

  
随着mRNA疫苗在抗击COVID-19疫情中取得突破性成功,mRNA疗法正式开启了生物医药的新纪元。这种新型治疗手段在癌症、心血管疾病和传染病治疗领域展现出巨大潜力,相比传统方法具有安全性高、研发周期短、生产成本低等突出优势。然而外源mRNA在人体内的翻译效率(Translation Efficiency, TE)低下却成为制约其广泛应用的主要瓶颈。
传统优化策略主要聚焦编码序列(Coding Sequence, CDS)的密码子优化,但越来越多的证据表明5'非翻译区(5' Untranslated Region, 5' UTR)作为核糖体招募和结合的关键区域,对翻译效率具有决定性影响。由于对5' UTR功能机制的认知有限,现有优化方法存在明显局限性:或是采用少数"通用型"高效UTR序列忽视基因特异性差异,或是基于遗传算法迭代进化但效率低下。这两种策略都难以实现最佳优化效果,迫切需要开发能够针对特定基因设计个性化高效UTR序列的新方法。
在这项发表于《iScience》的研究中,北京大学医学部的科研团队提出了名为UTailoR(UTR tailor)的创新性计算框架,通过两阶段人工智能策略实现对5' UTR序列的智能化优化。该研究首先开发了基于深度学习的判别模型,准确预测给定5' UTR序列的翻译效率;随后构建生成模型,产生与原始序列高度相似但预测具有高翻译效率的优化序列。
研究采用的主要技术方法包括:基于大规模并行报告基因分析(Massively Parallel Reporter Assay, MPRA)数据集训练深度学习模型;使用包含卷积神经网络和门控循环单元(Gated Recurrent Unit, GRU)的混合架构构建判别模型;采用特殊自编码器结构的生成模型并设计包含重建损失和核糖体负载损失的双目标优化函数;通过体外细胞实验(HEK293T、HeLa和HUVEC细胞系)验证优化序列的翻译效率提升效果;使用蛋白质印迹和实时定量PCR等技术定量分析增强型绿色荧光蛋白(EGFP)表达水平。
判别模型准确预测翻译效率
研究团队开发了轻量级深度学习模型专门预测平均核糖体负载(Mean Ribosome Loading, MRL)值。该模型仅使用5' UTR序列的编码特征作为输入,经过三层残差连接卷积层、一层GRU层和三层次差连接全连接层输出预测的MRL分数。经过超参数优化和权重调整,该模型在可变长度测试集上表现出与当前最先进方法相当的性能,预测值与实际值之间的斯皮尔曼相关系数高达0.878。值得注意的是,尽管使用HEK293T细胞系的EGFP数据训练,模型在酵母MPRA数据集上也表现出强大性能,表明5' UTR序列对翻译效率的影响在不同基因甚至物种间具有普适性。
通过SHAP(Shapley Additive Explanations)值分析特征重要性,研究发现最重要的特征多是起始密码子上游的T和G核苷酸,这些位点对翻译效率产生负面影响,这与已知生物学知识一致——UTR中的ATG会形成上游开放阅读框(upstream Open Reading Frame, uORF),阻碍核糖体对主要开放阅读框的识别。
生成模型产生具有更高MRL分数的优化5' UTR序列
研究团队开发了基于特殊自编码器结构的生成模型(称为"生成式自编码器"),其损失函数包含两部分:重建损失确保生成序列与原始序列高度相似,RL(代表"核糖体负载")损失指导模型产生高MRL分数的序列。随着RL损失权重的增加,模型倾向于生成具有更高MRL分数的序列。t-SNE降维分析显示,生成序列与原始序列的相似度显著高于已知高MRL序列。
序列分析表明,对于大多数序列,生成模型仅改变4-10个核苷酸,最常见的转换是T-to-A和C-to-A。所有突变位点的腺嘌呤含量从原始的17.1%增加到41.4%,这与判别模型特征重要性分析中对腺嘌呤的偏好一致。
生成模型优化的5' UTR序列增强翻译效率
为验证计算结果,研究人员选择了三对预测翻译效率提升最高的序列进行实验验证。将含有这些UTR-EGFP序列的质粒转染到HEK293T细胞、HeLa细胞和人脐静脉内皮细胞(HUVECs)中,评估荧光强度。结果显示,在所有测试的序列和细胞系中均观察到可比趋势。转染后36-48小时,原始序列和优化序列(分别命名为"Ori-cell"和"Opt-cell")的荧光强度达到峰值,且Opt-cell的荧光强度显著高于Ori-cell。
蛋白质印迹分析定量测量HEK293T细胞中EGFP的表达水平,发现Opt-cell中EGFP的蛋白表达水平约为Ori-cell的两倍。实时定量PCR评估各组细胞中EGFP mRNA含量,显示mRNA表达水平无显著差异,表明EGFP表达差异主要发生在翻译水平。
研究人员进一步对乙型肝炎病毒核心抗原(HBcAg)的UTR序列进行优化,比较原始序列、优化序列以及目前广泛使用的人α珠蛋白UTR序列在HEK293T细胞中的翻译效率。结果表明,在转染效率无显著差异的情况下,优化组的翻译效率是原始组的两倍以上。与人α珠蛋白UTR序列相比,优化组的翻译效率也提高了约40%,证明UTailoR可推广至常见序列且效果优于当前广泛使用的UTR优化方法。
开发优化5' UTR序列的在线工具
为使UTailoR算法更易于应用,研究团队开发了在线工具,可通过http://www.cuilab.cn/utailor免费访问。UTailoR接受长度25-100 nt的5' UTR序列作为输入,首先预测其翻译效率,然后为每个序列设计独特的优化方案。对于5个示例5' UTR序列,整个过程耗时不足30秒,比遗传算法或其他基于深度学习的方法更加便捷高效。
研究结论与讨论
本研究引入了创新的mRNA治疗5' UTR序列优化策略。与传统方法相比,该方法为每个UTR序列量身定制优化方案,在保持原始序列特征以减少过度修饰潜在不利影响的同时,提供了更强的灵活性。这一进步得益于深度学习技术,不仅验证了现有知识(如uORF理论和Kozak序列),还捕获了先前未被注意到的模式。
从计算角度,UTailoR目前仅能优化100 nt以内的5' UTR序列,据Sample等研究这仅覆盖29%的人类5' UTR。但一方面,细菌和病毒基因组中的5' UTR序列相对较短,更多UTR序列被覆盖;另一方面,现有研究证实5' UTR起始密码子附近区域对翻译效率有显著影响。因此,对于长于100 nt的UTR序列,优化起始密码子上游100 nt序列是合理有效的解决方案。
研究也存在一定局限性:一是如何理解UTailoR的优化过程仍待深入探索,MPRA数据集揭示了一系列具有高翻译效率的5' UTR序列,但难以发现它们之间的共性;二是UTailoR仅优化5' UTR序列,未考虑CDS区和3' UTR的特性;三是在生理条件下,mRNA经历各种修饰,其中许多已被证实影响翻译效率,将这些修饰纳入翻译效率预测和mRNA优化策略是值得进一步研究的方向。
总之,由于目前缺乏全长5' UTR对翻译效率影响的数据,难以通过深度学习方法优化5' UTR的全长范围。研究人员期待未来出现更全面的高质量数据集,允许对这些问题进行更深入的研究。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号