基础语言模型LAMAR破译RNA多层次调控规则及其在剪接、翻译与降解预测中的应用

【字体: 时间:2025年09月26日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对RNA调控规则解码的挑战,开发了基于Transformer的基础语言模型LAMAR。通过在大规模哺乳动物和病毒RNA序列上进行无监督预训练,并结合任务特异性微调,该模型在预测mRNA剪接位点、翻译效率、降解速率及内部核糖体进入位点(IRES)方面均优于或达到当前最先进方法的水平。LAMAR成功识别了调控RNA稳定性的顺式元件,并筛选出高效促进环状RNA翻译的新型IRES,为RNA生物学机制研究和药物设计提供了新见解。

  

RNA作为中心法则的关键组成部分,在蛋白质合成模板和基因表达调控中发挥多重作用。其代谢过程受到顺式调控元件和反式作用因子的精密调控,这些信息全部编码在RNA序列中。然而,由于RNA调控具有复杂性、多样性和上下文依赖性等特点,从序列中解读调控规则始终是计算生物学领域的重大挑战。

近年来,大规模语言模型(LLM)在自然语言处理领域的突破表明,通过无监督预训练海量文本数据可以显著提升模型的语言理解和生成能力。鉴于RNA序列与人类语言在语义和句法特征上的相似性,研究人员开始探索语言模型在RNA领域的应用潜力。尽管已有研究开发了RNA-MSM、RNAErnie等模型预测非编码RNA的二级结构,或利用RNA-FM预测RNA三级结构和结合位点,但这些模型大多基于非编码RNA序列训练,可能对高度结构化的非编码RNA存在偏好,难以适用于mRNA剪接、翻译、降解等多层次调控任务的预测。

为解决这一问题,Zhou等人在《Genome Biology》发表了题为“A foundation language model to decipher diverse regulation of RNAs”的研究,开发了基于Transformer架构的基础语言模型LAMAR(LAnguage Model for RNA Regulation)。该模型通过在大规模哺乳动物和病毒RNA序列上进行无监督预训练,学习RNA序列特征和进化信息,并通过任务特异性微调实现对多种RNA调控过程的精准预测。

研究人员首先从RefSeq和RNACentral数据库中收集了225种哺乳动物和1569种病毒的约2100万条序列,经过去冗余处理后形成包含1500万条序列的预训练数据集,涵盖mRNA、非编码RNA等多种RNA类型。模型采用掩码学习策略,通过预测被掩码核苷酸来学习核苷酸间的相互作用。研究团队训练了两种上下文长度的模型(LAMAR-2k和LAMAR-4k),均包含12个Transformer层和任务特异性预测头。

为验证预训练模型是否学习到了RNA的内在生化特性,研究人员分析了四种核苷酸的隐藏嵌入表示。发现未训练模型中核苷酸分布随机,而预训练后的模型中,嘌呤(A和G)与嘧啶(C和T)分别聚集,表明模型已从大规模无标签序列中学习了核苷酸的生化特性。进一步分析显示,预训练后的LAMAR能够更好地区分mRNA中的不同功能区域(5' UTR、CDS和3' UTR)和不同功能的RNA类型(mRNA、lncRNA、snRNA等),表明模型成功从序列中提取了功能特征。

在剪接位点预测任务中,研究人员使用与SpliceAI相同的数据集和染色体划分策略进行模型训练和评估。结果表明,经过全参数微调的LAMAR-4k(命名为LAMAR-SS)在5'和3'剪接位点预测中表现优异,其精度-召回曲线下面积(PRAUC)和top-k准确率均达到或超过SpliceAI-2k、RNA-FM和RNAErnie等专门设计的方法。

在翻译效率预测方面,研究使用HEK293T细胞系中10,903个转录本的5' UTR序列和翻译效率数据对模型进行微调。结果发现,全参数微调的LAMAR-2k(LAMAR-TE)在预测mRNA翻译效率方面显著优于RNA-FM、UTR-LM和RNAErnie等基准方法,斯皮尔曼相关系数提高7-18%,均方误差降低9-17%。

在降解速率预测任务中,研究人员利用大规模并行报告实验测量的1967个人类3' UTR序列及其对mRNA半衰期的影响数据微调模型。全参数微调的LAMAR-4k(LAMAR-DR)在预测mRNA半衰期方面表现最佳,其预测结果与实验测量值高度相关(斯皮尔曼相关系数0.647)。模型还成功预测了CXCL2 mRNA 3' UTR中AU富集元件的突变效应,并识别出已知的促进mRNA降解的 motif(如UAUUUAU、TGTAHATA和DRACH)和新型稳定化 motif(如GA富集、U富集和A富集元件)。

在IRES预测方面,研究从IRESite、IRESbase和RFAM数据库中收集1901个经实验验证的IRES序列和大量非IRES序列训练模型。微调后的LAMAR-IRES在IRES预测方面表现出色(AUC≈0.98),并能准确分类高通量实验筛选出的IRES序列。研究人员进一步应用LAMAR-IRES筛选正链单链RNA病毒5' UTR中的潜在IRES序列,并通过环状RNA荧光素酶实验验证预测结果。发现高活性IRES组(概率≥0.9)在13种细胞系中均表现出显著高于低活性组和非IRES组的翻译活性,其中一些病毒IRES甚至在某些细胞系中超越修饰mRNA的蛋白表达水平。

本研究的关键技术方法包括:基于Transformer架构的语言模型构建;从RefSeq、RNACentral和NCBI数据库收集225种哺乳动物和1569种病毒的RNA序列作为预训练数据;采用掩码语言建模进行无监督预训练;针对不同下游任务(剪接位点、翻译效率、降解速率、IRES活性)使用特定数据集进行有监督微调;利用环状RNA报告系统在13种细胞系中验证预测的IRES活性。

研究结果表明,LAMAR作为一个单一的基础语言模型,能够全面分析RNA调控的不同方面,并预测新的调控元件。该模型在预测剪接位点、翻译效率、降解速率和IRES活性等任务中均表现出优异性能,超越了许多专门为特定任务设计的计算方法。通过扰动分析,LAMAR还成功识别了已知和新型的调控RNA稳定性的顺式元件,并筛选出能有效促进环状RNA翻译的IRES序列。

研究的讨论部分强调,LAMAR的成功表明单一基础语言模型能够整合RNA的基本特性,并用于设计具有特定功能的新型调控元件。与主要基于非编码RNA预训练的现有模型不同,LAMAR使用包含各种RNA类型的多样化训练数据,这可能解释了其在mRNA调控任务中的优越性能。尽管当前模型在超长RNA序列处理方面存在限制,但未来通过架构优化和算法改进,有望进一步拓展模型的应用范围。

总之,LAMAR为理解RNA调控规则提供了一个强大工具,不仅有助于揭示新的生物学机制,也为RNA药物的设计和优化提供了新思路。该研究的成功展示了人工智能在RNA生物学和治疗应用中的巨大潜力,为未来发展更高效、更通用的RNA基础模型奠定了坚实基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号