基于Transformer的基因表达帽分析及RNA加帽区预测新方法

《RNA Biology》:A transformer-based method for the cap analysis of gene expression and gene expression tag associated capping region prediction in RNA

【字体: 时间:2026年02月17日 来源:RNA Biology 3.4

编辑推荐:

  这篇综述(研究论文)的核心,是提出了一种新的计算方法,它利用Transformer模型架构(结合Llama、LoRA与ReLoRA),首次专注于从DNA序列中直接预测RNA的5‘加帽(Capping)相关区域。这项工作为理解基因转录调控提供了一个全新的序列分析框架,将计算生物学与功能基因组学紧密连接,其模型在人类(hg19)和小鼠(mm9)基因组上均取得了优异的预测性能。

  

摘要

RNA的5‘端加帽(Capping)是关键的转录后修饰,对于RNA的稳定性和翻译至关重要。基因表达帽分析(CAGE)是一种通过捕获5‘帽来量化转录本表达的成熟技术。然而,目前尚缺乏纯粹基于计算的方法来预测加帽。本研究开发了一种基于Transformer的方法,用于从DNA序列中计算预测加帽。我们的方法整合了基于Llama和ReLoRA的预训练模型,以及基于Llama和LoRA的微调模型。采用留一染色体交叉验证(LOCOCV),模型在人类基因组hg19和小鼠基因组mm9上的序列分类平均准确率分别达到79.12%和78.09%,F1分数分别为78.11%和76.17%。我们还在高注意力得分区域发现了统计显著的序列基序(Motif),其中部分与已知的转录因子(TF)结合位点匹配,证明了其生物学相关性。

引言

真核细胞的生命活动依赖于DNA、RNA和蛋白质。RNA加帽是将7-甲基鸟苷(7-methyl-guanosine)添加到RNA聚合酶转录的RNA的5‘端的过程,对翻译起始和防止外切核酸酶降解至关重要。研究发现,一部分mRNA和lncRNA(长链非编码RNA)可以在细胞质中重新加帽(Recapping),表明加帽状态并非一成不变。CAGE作为一种流行的RNA测序方法,主要用于转录起始位点(TSS)注释。然而,研究表明约25%的哺乳动物加帽位点位于非启动子区域,如下游的剪接外显子上,因此CAGE在TSS识别上的召回率仅为75%左右,这意味着加帽预测与TSS预测是两个不同的问题。

材料与方法

问题定义:本研究旨在利用机器学习方法预测与CAGE标签相关的区域(即加帽指示区域),并利用附近的转录因子结合位点进行佐证。输入是长度为512或1024个碱基的核苷酸序列。我们的方法接收一个核苷酸序列,并返回该序列中是否存在加帽相关区域。预测函数的核心是预训练的Llama因果语言模型(LlamaForCausalLM)结合ReLoRA进行优化,然后使用LoRA对Llama序列分类模型(LlamaForSequenceClassification)进行微调。
数据集:使用来自FANTOM5联盟的人类基因组hg19和小鼠基因组mm9的CAGE峰数据构建数据集。阳性样本是包含CAGE峰的DNA片段,阴性样本是远离CAGE峰的随机片段。具体数量可参考文中表格。
方法论:我们的框架整合了Llama、LoRA和ReLoRA。
  1. 1.
    序列预处理与分词:将DNA序列(如512nt)划分为大小为8个核苷酸的重叠“词”,每个词与前后词共享4个碱基。此过程重复3次,分别使用1、2、3个碱基的偏移量,以捕获不同阅读框下的序列信息。随后,使用基于字节对编码(BPE)的分词器(Eleuther AI的GPTNeoX-20B分词器)进行分词,词汇表大小为50,254。
  2. 2.
    模型架构:核心是Llama模型,它采用旋转位置编码(RoPE)和分组多头注意力机制。预训练阶段,首先使用标准的28.17M参数Llama模型进行1000步“热身”训练,然后切换到使用ReLoRA算法的31.39M参数Llama模型,继续训练13,197步。ReLoRA是一种在预训练中结合LoRA和重启的策略,可有效降低GPU内存消耗。
  3. 3.
    微调:预训练完成后,使用LoRA技术对Llama序列分类模型进行微调,用于二元分类任务(预测加帽与否)。微调持续5个周期,23,440步,模型参数为16M。

结果

训练与验证:模型在hg19和mm9基因组上均取得了良好的LOCOCV性能(如上文摘要所述)。使用更大的上下文窗口(1024 vs. 512)能进一步提高模型性能,因为在更长的序列中能捕获到更多启动子上游/下游元件等信息。
注意力与基序发现:我们分析了模型预测时注意力得分最高的区域。通过比较正/负预测样本的高注意力区域与整个上下文窗口的八聚体(8-mer)基序频率,发现了具有统计显著性的差异基序。例如,正样本高注意力区与整个窗口的基序频率比较p值为1.075e-10,负样本的p值为7.17e-18,正负样本高注意力区之间的比较p值为6.70e-08
我们鉴定出p值最低的前10个基序,如TCTTGAAT、GTCTTGAA等。其中,基序TTTTTATT被发现与多个已知的转录因子结合位点(如MA0497.1、MA0773.1等)匹配,具有统计学和生物学意义。另一基序ATGTGAGT也与多个TF基序(如MA0601.1、MA0135.1)匹配。这些发现证明了模型注意力机制能够捕捉到与加帽相关的潜在调控序列特征。流程图清晰地展示了从高注意力词汇到基序匹配的分析过程
消融研究与比较
  • 偏移量的影响:在预训练中,使用3个偏移量的数据集能获得最低的验证损失(0.23),而0偏移量的损失最高(1.016)。这表明多偏移量分词对模型学习有效序列模式至关重要。但在微调阶段,不同偏移量模型的最终性能差异不大,0偏移量模型甚至在某些指标(如F1分数)上表现稍好。
  • 上下文窗口的影响:更大的上下文窗口(1024)始终带来更优的性能(准确率79.735%,F1分数79.425%),明显优于512和256窗口。
  • 与其他模型的比较:我们将本方法(Llama+ReLoRA)与多种基线模型进行了比较,包括:
    • Transformer + Bi-LSTM模型:在hg19上,512窗口的LOCOCV准确率为74.43%。
    • 纯Transformer模型:在hg19上,1000窗口的染色体1准确率为72.24%。
    • 传统机器学习模型:如XGBoost、LightGBM、随机森林,基于3-mer频率特征,准确率均在74%左右。
      我们的Llama+ReLoRA模型在所有比较方法中性能最佳,准确率和F1分数均显著高于其他模型。详细的对比箱线图 直观展示了这一优势。
超参数调优:微调阶段采用Adam优化器,批量大小为64,起始学习率5e-5并线性衰减。更大的批量大小(64 vs. 16)带来了显著的性能提升。

结论

CAGE测序是量化mRNA和lncRNA等加帽RNA转录表达水平的长期工具,但计算预测加帽位点的方法仍然稀缺。研究表明,约25%的加帽位点位于TSS下游的非启动子区域,因此仅预测TSS不足以绘制所有加帽位点。我们的方法为解决这一问题提供了一个新的序列分析框架。该方法以512或1024的上下文窗口输入DNA序列,能够以高准确率(hg19上79.12%)预测加帽发生,同时识别出序列内部的高注意力区域。从这些区域中,我们发现了统计显著的差异基序,其中部分(如TTTTTATT、ATGTGAGT)与已知的转录因子结合位点匹配,揭示了模型的生物学可解释性。这项工作为从DNA序列直接预测RNA加帽开辟了新途径,有望在基因转录调控的机制研究和生物信息学工具开发中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号