综述:基于RNA序列基础模型推进非编码RNA注释:结构与功能视角

【字体: 时间:2025年10月17日 来源:BMC Artificial Intelligence

编辑推荐:

  本综述系统分析了RNA基础模型(FM)在非编码RNA(ncRNA)结构预测与功能注释中的前沿进展。文章指出,传统方法(如热力学模型、DL模型)面临泛化性差、数据稀缺等挑战,而FM通过自监督学习从海量无标注序列中提取通用表征,显著提升了RNA二级结构预测、功能注释(如RBP结合、剪接位点识别)、RNA修饰(如m6A)检测等任务的准确性。作者进一步探讨了FM在RNA药物设计、个性化医疗中的应用潜力,并指出当前挑战(如数据偏差、可解释性不足)与未来方向(如多模态整合、3D结构预测)。

  

背景

RNA作为将DNA遗传信息转化为功能分子的关键生物大分子,在免疫应答、氨基酸转运、蛋白质合成调控等过程中发挥核心作用。人类基因组中仅不到2%编码蛋白质,绝大多数转录本为非编码RNA(ncRNA),包括microRNA(miRNA)、小干扰RNA(siRNA)、PIWI相互作用RNA(piRNA)和长链非编码RNA(lncRNA)等。这些ncRNA通过竞争性内源RNA(ceRNA)机制、调控mRNA靶标、影响RNA结合蛋白(RBP)活性等方式,在转录与转录后调控、DNA修复及疾病机制中扮演重要角色。核糖体RNA(rRNA)和转运RNA(tRNA)则主导蛋白质合成过程。
RNA的功能高度依赖其复杂的二级(2D)和三级(3D)结构。例如,rRNA的复杂结构使其成为“蛋白质工厂”,mRNA的非翻译区(UTR)包含调控蛋白质合成的结构元件,miRNA的茎环前体是Drosha和Dicer酶加工及靶标识别的关键。RNA的连接处和远距离接触像灵活铰链,助其构象变化以执行不同功能。小核仁RNA(snoRNA)的特定2D结构指导rRNA和小核RNA(snRNA)的化学修饰,而lncRNA的2D结构调控与染色质修饰复合物及蛋白质的相互作用。复杂RNA折叠还催生催化活性,如锤头状核酶和I组内含子,能结合小代谢物并通过构象变化调控基因表达。对SARS-CoV-2病毒结构的研究深化了对其翻译和感染机制的理解,促进了药物靶点开发。

RNA结构预测的计算挑战

尽管ncRNA种类繁多,但其结构与功能大多未知。实验技术如核磁共振(NMR)、X射线晶体学和冷冻电镜(cryo-EM)成本高、耗时长,推动计算方法的开发。RNA 2D结构预测主要依赖三类方法:热力学模型、基于比对的方法和深度学习(DL)模型。热力学方法自1980年代开始应用,后结合动态规划算法模拟碱基配对和折叠特征,并通过融入实验数据和机器学习技术得以改进。但此类方法因忽略重要三级相互作用而性能受限。基于比对的方法利用同源RNA序列估算碱基配对概率,但严重依赖已知RNA家族(如Rfam数据库仅涵盖数千个家族),难以处理新颖或未分类RNA。近期DL模型显著提升了预测准确性,但仍存在泛化问题——例如E2Efold在tRNA和5S rRNA上表现良好,却无法泛化至陌生RNA类型。RNA 3D结构预测则因缺乏高质量3D数据而发展滞后。
核心问题在于:传统方法仅使用少量标注数据(约3万条序列),忽视了大量未标注RNA数据。自然语言处理(NLP)领域大语言模型(LLM)的成功为生物序列建模开辟了新途径。生物序列基础模型(FM)是大规模预训练的深度学习模型,能从广泛生物序列数据(如DNA、RNA、蛋白质)中学习可泛化的表征,通过捕获序列中的上下文和结构模式,经微调适配于下游任务(如结构预测、功能注释、序列生成)。FM通过自监督学习从无标注数据生成标签,实现强大预训练,并可基于有限高质量标注数据微调,减少对任务特定模型的依赖,提供“一模型多用”的解决方案。

RNA基础模型的设计考量

构建鲁棒且具有生物学意义的RNA FM需综合考虑数据、分词策略和架构选择。
数据:公共数据集如Rfam、RNAcentral、RNAStrand、BPRNA、PDB等被用于预训练和下游任务评估,涵盖结构预测、转录本丰度估计、剪接位点检测、RNA修饰位点识别和翻译效率分析等领域。
数据预处理与序列编码:预处理包括过滤序列仅保留标准碱基(A、U、C、G)及相关变体和间隔符号,并使用cd-hit-est去重。长序列被分割为定长片段以管理计算成本。编码方式包括:
  • 独热编码:每个核苷酸表示为二进制向量。
  • 分词:分为碱基层级(单核苷酸分辨率)和子词方法(如k-mer、字节对编码BPE、unigram)。单核苷酸分辨率适用于需碱基级解析的任务(如高分辨率结构预测),而子词方法平衡词汇效率与表征能力,提升对未见序列的泛化性。
模型架构
  • Transformer:包含编码器和解码器,核心为多头注意力(MHA)。预训练目标包括掩码语言建模(MLM)和下一句预测(NSP)。编码器模型(如BERT)用于分类和回归任务,生成模型(如GPT)用于RNA设计。
  • 隐式卷积(Hyena):用隐式长程卷积替代注意力,以次二次时间复杂度处理极长序列(达13.1万令牌)。
  • 状态空间模型(Mamba):融合循环网络、卷积和连续时间动态特性,仅保留最相关上下文信息,提升效率和性能。

RNA FM的现状与多样性

早期DNA FM(如DNABERT、DNABERT-2、Nucleotide Transformer、genomicBERT、HyenaDNA)为RNA FM奠定基础。首款专用RNA FM——RNA-FM基于2300万条ncRNA序列(来自RNAcentral),采用12层Transformer编码器。Uni-RNA包含参数2500万至4亿的四个FM,训练于10亿条编码和ncRNA序列,集成旋转位置嵌入(RoPE)、FlashAttention等技术。RiNALMo(6.5亿参数)预训练于3600万条ncRNA序列,在家族间预测任务中展现优异泛化能力。RNAErnie基于ERNIE框架,引入类型引导微调和高级掩码策略。OmniGenome专为植物RNA序列与2D结构对齐设计,BigRNA处理GTEx联盟的RNA-seq数据。
为突破模型规模限制,AIDO.RNA(16亿参数)采用单核苷酸分辨率MLM预训练,集成RoPE、LayerNorm和SwiGLU激活函数。LoRNASH基于StripedHyena架构,处理长达64k核苷酸的序列,实现转录本架构的零样本预测。Mamba-2驱动的DGRNA预训练于1亿条RNA序列(来自MARS数据库),Orthrus基于Mamba架构通过自监督对比学习训练。MPRNA和PlantRNA-FM融合序列与结构信息(如用ViennaRNA生成二级结构),提升突变位点识别和5' UTR翻译影响分析。生成模型如RNAGenesis(基于BERT的混合N-Gram分词)和GenerRNA(3.5亿参数Transformer解码器)支持从头RNA设计,实验验证其生成序列具有高结构完整性和功能相关性(如强蛋白质结合亲和力)。
这些FM在下游任务中显著提升准确性:即使在低冗余数据集上,FM也较早期DL方法F1分数更高;FM学习的特征与实验衍生的2D结构特征在预测蛋白质-RNA相互作用中表现相当,表明其能同时捕获RNA的结构和功能方面。

RNA结构预测的演进

初始RNA 2D结构预测基于最低自由能、概率建模或动态编程。DL技术通过自动特征提取和处理大规模数据优势,克服了手动特征工程限制,但参数量大易过拟合。MXFold2整合深度学习折叠分数与Turner最近邻自由能参数,结合Zuker风格动态编程提升鲁棒性。UFold将序列视为图像样表征,直接基于碱基配对规则和标注数据预测结构(包括假结),处理长达1500 bp序列,但性能依赖训练数据质量和规模,泛化能力有限。
RNA 3D预测分模板基(如RNAbuilder、ModeRNA)和能量最小化基(如SimRNA、FARFAR)方法。前者需同源模板,后者计算成本高且能量项不完美。DL方法因数据密集度而发展滞后,但AlphaFold的成功推动其应用。DeepFoldRNA、trRosettaRNA、E2Efold-3D、NuFold、RoseTTAFoldNA利用多序列比对(MSA)和二级结构约束预测几何特征,通过能量最小化采样评分。单序列模型如DRFold绕过MSA,仅基于预测二级结构进行3D预测,但准确性较低。AlphaFold3整合更广化学结构输入,减少对MSA处理的依赖,通过扩散模块直接预测原子坐标。

基于FM的结构预测

RNA FM通过统一下游预测模块(如2D深度残差网络ResNet)处理2D结构预测,输入为FM生成的序列嵌入外拼接,输出碱基配对概率矩阵。微调采用层解冻策略。OmniGenome在预训练中整合RNA 2D结构信息(使用点括号记号作令牌),将结构预测视为核苷酸多分类任务,支持零样本预测和基于Vienna RNA结构的微调。ERNIE-RNA引入碱基配对感知注意力偏置,在零样本下捕获结构特征。RNAErnie计算四种折叠分数(螺旋堆叠、未配对区域、螺旋打开、螺旋关闭),通过Zuker风格动态编程最大化累积环得分预测最优2D结构。
RNA-FM将嵌入扩展至RNA 3D紧密度和距离图预测,ResNet结合迁移学习提升长程精度。Uni-RNA和Ernie-RNA利用嵌入预测RNA碱基间空间距离。RhoFold使用RNA FM嵌入处理MSA进行3D结构预测,但全面RNA 3D预测仍需进一步发展。

RNA功能注释的计算方法

RNA相互作用组(RNA-蛋白质、RNA-RNA、RNA-DNA相互作用)的结构复杂性生成多样结合位点。早期机器学习模型(如RNAContext、RCK)预测RNA-蛋白质相互作用,DeepBind(CNN)、RNAProt(RNN)、PrismNet(残差网络)以更高精度建模RBP结合模式。MiRTDL(CNN)、deepTarget(RNN+自编码器)、miTAR(CNN+RNN)预测miRNA-RNA相互作用,GCLMI(GNN)和RNAincoder(堆叠自编码器)也用于RNA相互作用建模。
ncRNA家族识别与分类因功能多样性和相关性受关注。许多模型采用基于序列或二级结构的方法(如GraPPLE-SVM、RNAcon-随机森林、nRC-CNN、ncRDeep-CNN、asncRFP-RNN)。RNA功能计算建模还涵盖剪接位点识别、RNA翻译速率和转录后修饰。剪接位点识别早期用隐马尔可夫模型,近期SpliceRover、Splice2Deep、Deep Splicer、DRANetSplicer融入CNN、残差学习和注意力机制提升准确性。翻译速率效率通过平均核糖体负载(MRL)分析,Optimus、FramePool利用CNN变体探索该领域,UTR-LM基于Transformer架构从大规模5' UTR序列学习核糖体负载和效率见解。
超过150种RNA化学修饰影响结构、功能和稳定性。机器学习方法(如iRNA-Methyl-SVM、SRAMP-随机森林、iRNA-m5C-朴素贝叶斯)从已知数据集提取特征预测修饰位点。深度学习技术如MixedCNN-PseUI(CNN)、MultiRM(嵌入模块+LSTM-注意力块)可识别12类RNA修饰,DLm6Am整合注意力机制与CNN、BiLSTM提升准确性。
FM通过学习大规模序列模式中的隐藏关系,规避监督训练对标注数据的依赖,提升RNA功能预测任务表现。

基于FM的功能注释

RNA FM的功能预测任务包括跨物种剪接位点预测、蛋白质-RNA相互作用预测、RNA-RNA相互作用预测、MRL估计、ncRNA家族分类和RNA修饰位点预测。ncRNA家族分类涉及将序列多分类为miRNA、lncRNA等;剪接位点预测通过二进制序列级分类识别供体和受体位点;RNA修饰位点预测(使用MultiRM数据集)视为12类修饰的多标签分类任务;蛋白质-RNA相互作用评估给定RNA序列与特定蛋白质的结合能力(按蛋白质子集二进制分类);RNA-RNA相互作用建模两个RNA序列(如miRNA-mRNA对)的潜在交互(二进制分类);MRL预测基于5' UTR序列,作为回归任务估计翻译mRNA的平均核糖体数,揭示翻译效率和细胞功能。大规模嵌入使模型捕获更丰富多样的RNA特征,增强泛化能力和整体预测性能。

RNA FM的挑战与战略方向

数据约束:PDB中RNA结构仅数千个,与蛋白质结构比率为1:25(高分辨率结构甚至1:100)。数据高度偏斜:bpRNA中tRNA和rRNA占50%以上,Rfam中tRNA占45%、rRNA占8%,这些家族主导已知3D结构(tRNA 26%、rRNA 61%),损害模型对其他ncRNA子类的泛化能力。功能注释稀疏,Rfam等资源含结构错误和系统偏差,缺乏RNA结构验证统一标准导致碱基配对和骨架几何不准确。数据库维护差(如PseudoBase、RNABase、RNASstrand更新不及时)加剧问题。结构多样性强、高分辨率数据集缺失阻碍准确预测与建模。研究表明,高质量小数据集常优于低质量大数据集,强调RNA数据精准整理对有效结构建模和功能分析的必要性。
预训练目标:多数RNA FM使用BERT风格编码器和MLM,未利用最新进展(如RoBERTa动态掩码、BART去噪自编码、SpanBERT跨度掩码、ELECTRA替换令牌检测)。这些策略对捕获RNA子结构和 motif 极具相关性。继续创新生物数据专用的预训练目标(如对比学习、位置预测、提示引导微调)是前景方向。
架构创新与扩展挑战:核心架构创新有限,进展多集中于预训练数据集变化和Transformer超参数微调。少数模型(如LoRNASH、DG-RNA、Orthrus、GenerRNA、RNAGenesis)探索Hyena、Mamba和解码器专用生成架构,但非主流。Transformer架构计算挑战大:二次时间复杂度导致高内存消耗和硬件需求(如RiNALMo和RNA-FM需多块80GB GPU训练长达一个月)。模型规模扩展方面,RNA FM最大仅16亿参数,远落后于蛋白质语言模型(PLM,超1000亿参数),存在性能和可扩展性差距。输入序列长度限制(大多512令牌用于结构预测,约400令牌用于剪接位点预测)可能损害模型捕获真实RNA长程依赖的能力。
多模态生物数据整合不足是主要瓶颈。OmniGenome通过多目标预训练框架(MLM+Seq2Struct+Struct2Seq)整合RNA序列与结构,提升准确性并支持零样本结构预测。MPRNA和PlantRNA FM探索多模型方法,扩展至整合RNA-蛋白质相互作用等生物信号将显著增强RNA FM效用。
模型泛化与可解释性:确保FM在预训练和微调数据集外的稳健泛化至关重要。微调于任务特定数据时,过拟合风险高(尤其在数据有限、冗余或高度结构化于特定家族的生物领域)。评估模型于未见RNA家族(训练测试集分离)是评估真实泛化性的关键,如RiNALMo证明家族间泛化对构建稳健RNA FM的必要性,但多数模型未经历类似评估。
可解释性是另一难题。FM比早期DL模型更复杂庞大,理解预测基础在生物应用中至关重要。RNA-FM和RiNALMo通过可视化嵌入展示结构或功能聚类迈出初步步伐。先进可解释技术(如事后解释方法、可解释性内在模型设计、注意力分析)可确保局部(实例级)和全局(模型范围)理解,识别驱动预测的关键序列 motif 或子结构,摆脱FM“黑箱”认知。为应对生成AI任务中的幻觉(生成合理但错误输出),提示引导微调、思维链推理、外部知识库整合和自主代理使用等策略正在试验中,这些提升可显著增强RNA FM在实际应用中的可靠性和透明度。
实际效用与生物信息学工作流集成:尽管技术进步显著,RNA FM仍与广泛采用的生物信息学管道和工具脱节。许多模型缺乏直观API、用户友好Web界面或充足文档,阻碍无机器学习背景研究者的采用。训练和部署这些模型的重大计算开销是另一主要限制。弥合此可用性鸿沟对普及RNA FM技术、促其在生命科学中广泛应用至关重要。

未来方向

Advanced深度学习方法如AlphaFold革命性变革蛋白质结构预测,但对RNA类似突破仍具挑战。主要障碍是标记数据稀缺,限制数据饥渴DL模型应用。现有RNA数据集存在显著偏差、覆盖空白和注释不一致,共同阻碍模型性能和泛化能力。前景方向在于使用RNA FM——大规模预训练模型,从海量RNA序列语料中学习丰富表征,捕获结构和功能约束(即使无显式比对)。通过微调此类模型于RNA特定任务或结合结构先验,可利用其泛化能力补偿有限标记数据。
RNA FM可进一步改进RNA治疗剂早期设计,建模毒性、免疫耐受性,模拟药代动力学和药效学。这些模型可识别免疫触发 motif,预测脱靶效应,指导高特异性siRNA和shRNA分子设计。扩展FM能力至涵盖mRNA、siRNA、适配体、反义寡核苷酸和CRISPR-Cas系统等多样RNA模态,将拓宽其影响。未来专用RNA FM可能模拟RNA全生命周期(生物发生、成熟、定位、活性和降解),潜在揭示癌症、遗传病和传染病的新治疗靶点。整合FM与基因组和转录组数据可实现个性化医疗,预测变异对RNA结构和功能的影响,支持更安全有效的RNA治疗(如环状RNA治疗剂)。
然而,多数RNA FM用于3D结构预测仍严重依赖MSA,使其依赖MSA质量且计算密集耗时的数据库搜索。单序列模型提供更快预测但结构准确性较低。此外,高质量实验RNA 3D结构稀缺限制其跨RNA类型的泛化能力。推进RNA 3D预测,未来工作必须聚焦于整合额外数据类型(如SHAPE反应性谱、共进化信号、RNA修饰)至FM以提升模型准确性。此外,超越MLM的结构感知目标(如子结构跨度)可指导模型学习有生物学意义的表征。融入基于图的架构能更好建模RNA分子固有的长程和空间依赖。提升分词策略(如k-mer、BPE)和纳入高质量RNA结构(而非仅线性序列)可进一步精炼模型表征。在此之上,轻量级Transformer、分层框架和参数修剪可通过减少资源消耗优化RNA FM训练。
随着RNA FM扩展至临床和治疗领域,其对敏感生物数据的依赖要求强有力的伦理、安全和治理措施。计算机科学家、生物信息学家、伦理学家和政策制定者的跨学科合作对指导这些模型的负责任开发和部署至关重要。鉴于基因组和转录组数据敏感性(尤其在临床环境中),数据收集、存储和共享的严格标准至关重要。透明模型决策、偏差缓解和问责机制也是培养用户信任所必需。

结论

提升对RNA结构和功能的理解可极大影响医疗保健,推动个性化医疗、疫苗开发和基因治疗进步。早期计算方法因缺乏有效利用大量未标注RNA序列数据的方式而面临困难,影响其向未知RNA家族的泛化能力。然而,FM的发展(原用于NLP)正通过改进结构预测和功能分析加速RNA研究。多种RNA FM已被创建,各有独特架构、数据集和训练目标,极大扩展其潜在用途。尽管进步显著,挑战依然存在,如建模更长RNA序列、整合多类数据和处理小而高质量数据集。FM驱动的RNA建模持续改进有望引领生物医学研究和临床应用的重要突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号