深度学习赋能5′ UTR高效发现与设计:UTR-Insight模型突破mRNA治疗瓶颈

【字体: 时间:2025年02月10日 来源:BMC Genomics 3.5

编辑推荐:

  本研究针对mRNA治疗中5′非翻译区(5′ UTR)设计难题,开发了整合预训练语言模型与CIN-Transformer架构的UTR-Insight模型。该模型在随机和天然5′ UTR序列中分别解释89.1%和82.8%的核糖体负载量(MRL)变异,通过高通量筛选获得较传统hHBA序列表达量提升319%的优化序列,为mRNA药物开发提供全新工具。

  

在mRNA疗法开发中,5′非翻译区(5′ UTR)如同基因表达的"调控开关",直接影响mRNA稳定性和翻译效率。传统疗法常采用人α-珠蛋白基因(hHBA)的5′ UTR,但越来越多的证据表明,这种"一刀切"的策略可能导致某些细胞类型中蛋白表达不理想。更棘手的是,实验筛选方法通量低、成本高,而现有计算模型又面临序列长度限制、长程依赖捕捉不足等瓶颈,严重制约了mRNA药物的个性化开发。

针对这一系列挑战,研究人员开发了革命性的UTR-Insight模型。该模型巧妙融合预训练语言模型的深度表征能力与CNN-Transformer架构的多尺度特征捕捉优势,创新性地引入帧池化技术突破序列长度限制。在技术实现上,研究团队首先构建包含28万随机序列和1.5万人类天然序列的训练集,采用基于ESM-2架构的UTR-LM进行序列嵌入,通过包含3层CNN-Transformer的Conv-Former模块解析局部与全局特征,最终预测核糖体负载量(MRL)这一关键指标。

UTR-Insight架构设计

模型采用双路径特征提取策略:六层Transformer构成的UTR-LM编码器通过掩码重建、二级结构预测等预训练任务学习序列深层特征;解码器则通过7-mer到3-mer的渐进式卷积核捕捉多尺度模式,配合16头自注意力机制建立长程关联。这种"全局-局部"协同的架构在保留CNN局部敏感性的同时,解决了传统模型对可变长度UTR适应性差的问题。

预测性能突破

在独立验证集上,模型对随机和天然5′ UTR的MRL预测R2分别达0.891和0.828,较Optimus等现有模型提升5-10%。特别在长序列(>100nt)和低MRL区间(1≤MRL<5)表现尤为突出。跨物种分析揭示病毒UTR具有最高翻译效率,而-3位嘌呤保守性、uAUG/uORF抑制效应等调控规律与冷冻电镜研究发现高度吻合。

高通量筛选实践

研究团队建立包含32万条灵长类、小鼠和病毒UTR的数据库,筛选出的20条优化序列在报告基因实验中表现惊艳。其中UTR_17在THP-1细胞中使荧光素酶表达达hHBA的4.19倍,而设计的全新序列UTR_r2_29更将表达量进一步提升82.9%。值得注意的是,这些序列在不同细胞-基因组合中均保持稳定优势,证实了模型的泛化能力。

讨论与展望

该研究突破性地实现了从天然UTR解码到人工设计的全链条创新。特别值得关注的是,模型揭示的内源序列具有更稳定的表达特性,而设计序列则展现出更广的动态范围——这对需要精确剂量控制的治疗场景尤为重要。论文发表于《BMC Genomics》,为mRNA疫苗开发、基因治疗等领域提供了强大的序列设计工具。未来研究可进一步整合翻译起始复合物结构数据,提升对极端GC含量等复杂序列的预测精度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号