《Connection Science》:LncRNA-BERT: an RNA language model for classifying coding and long non-coding RNA
编辑推荐:
本文推荐了一篇关于利用大型语言模型(LLM)进行长链非编码RNA(lncRNA)分类的前沿研究。作者提出的lncRNA-BERT模型,通过在人源RNA数据(GENCODE、RefSeq、NONCODE)上进行预训练和微调,在多个测试集上达到或超越了现有最佳分类器性能。研究创新性地比较了卷积序列编码(CSE)等四种序列编码方法,证实了编码潜力是序列内在特征。该工作为RNA功能注释提供了强大的纯序列分析工具。
摘要
随着RNA测序技术的进步,准确区分编码RNA和长链非编码RNA(lncRNA)变得至关重要。传统方法依赖于一组预定义的特征(如开放阅读框长度、k-mer频率等),存在局限性。本研究提出了lncRNA-BERT,一种基于Transformer架构的RNA语言模型,专门用于区分mRNA和lncRNA。该模型在GENCODE、RefSeq和NONCODE数据库收集的人源RNA序列上进行预训练和微调,在三个测试数据集(包括跨物种的RNAChallenge基准)上达到或超越了最先进分类器的性能。研究发现,即使在没有监督学习的情况下,预训练后的lncRNA-BERT也能区分编码和非编码RNA,证实编码潜能是序列固有的特征。此外,研究提出了一种新颖的卷积序列编码(Convolutional Sequence Encoding, CSE)方法,在处理长RNA序列时,其效率和性能优于K-mer标记化和字节对编码(Byte Pair Encoding, BPE)。
1. 引言
高通量RNA测序技术的广泛应用产生了大量RNA转录本数据。长链非编码RNA(lncRNA,长度≥200 nt)已被证明具有重要的调控功能。目前有超过40种算法可用于lncRNA分类,大多数是基于机器学习模型(如CPC、CNCI、CPAT、CPC2),它们依赖于开放阅读框(ORF)长度、蛋白质数据库比对结果等特征。然而,分类任务存在内在模糊性:一些lncRNA含有可翻译成小肽的短ORF,而某些mRNA基因则存在非编码异构体。
尽管已有基于序列的深度学习方法被提出(如使用卷积神经网络CNN或循环神经网络RNN),但在近期的一项基准测试中,它们的表现被基于特征或混合方法超越。Transformer架构通过自注意力机制克服了CNN/RNN的局限性。核苷酸语言模型(Nucleotide Language Model, NLM)作为大型语言模型(Large Language Model, LLM)在基因组学领域已展现出潜力,但现有的RNA语言模型可能因主要使用RNAcentral(不含mRNA)数据以及有限的上下文长度而不适合编码潜能检测。
本研究介绍了lncRNA-BERT,其主要贡献包括:1)在三个不同测试集上取得了最先进的分类性能,并在最具挑战性的跨物种RNAChallenge测试集上显著优于其他方法;2)通过在人源mRNA/lncRNA上预训练,模型无需标签即可有效区分mRNA和lncRNA;3)深入比较了四种序列编码方法,证明了新颖的卷积序列编码(CSE)在处理长RNA序列方面的有效性。
2. 方法
2.1. 数据
预训练数据集整合了GENCODE (v46)、NONCODE (v6)和RefSeq (v225)的所有RNA序列,包含297,724条mRNA和238,470条lncRNA序列。使用CD-HIT算法(90%序列一致性阈值)对GENCODE和RefSeq的组合数据进行去冗余处理,生成代表性的非冗余RNA序列,并随机划分为训练集(90%)、验证集(5%)和测试集(5%)。此外,还使用了CPAT数据集(4,000条mRNA和4,000条lncRNA)和RNAChallenge数据集(27,283条难以分类的跨物种RNA序列)进行独立评估。
2.2. 编码方法
比较了四种序列编码方法:
- •
核苷酸水平标记化(Nucleotide-Level Tokenization, NUC):使用四个核苷酸(A, C, G, U/T)作为词汇表。序列长度压缩效率低。
- •
K-mer标记化(K-mer Tokenization):将序列划分为连续的非重叠k-mer。词汇表大小为4k,k值大时会导致词汇表爆炸和参数激增,且需学习k种阅读框下的信号。
- •
字节对编码(Byte Pair Encoding, BPE):基于频率合并字符对,产生可变长度的标记。相比K-mer,在相同词汇量下序列压缩率更高,标记采样效率更好,对移码更鲁棒。
- •
卷积序列编码(Convolutional Sequence Encoding, CSE):通过一维卷积层直接将核苷酸序列(表示为位置权重矩阵PWM)嵌入到高维空间。使用大小为k的卷积核,步长也为k,从而将序列长度减少k倍。该方法参数效率高,并能保持核苷酸级分辨率。
2.3. 语言模型架构
lncRNA-BERT基于BERTmedium架构,包含12个Transformer块,隐藏维度dmodel=768,前馈网络维度dff=3072,12个注意力头,上下文长度c=768。模型参数量为85M。对于CSE模型,使用可学习的CLS嵌入进行分类,并采用转置卷积实现核苷酸级的掩码语言建模(Masked Language Modeling, MLM)预测。
2.4. 训练
- •
预训练:使用MLM任务,掩码比例为15%。使用Adam优化器,交叉熵损失函数。
- •
微调:在去冗余后的GENCODE/RefSeq数据(101,270条mRNA, 48,785条lncRNA)上微调所有参数,进行编码潜能分类。使用Adam优化器,学习率10-5,二元交叉熵损失函数,并采用类别权重平衡。
- •
探测(Probing):训练一个小的多层感知机(MLP)在预训练模型的平均池化输出嵌入上进行分类,以评估预训练模型本身编码的编码潜能信息。
2.5. 实验设置
将现有lncRNA分类方法使用的特征归纳为五类:ORF相关特征、序列模式、数据库比对、理化特性、二级结构。将lncRNA-BERT与六种已发表的方法进行比较,包括CPAT、LncFinder、PredLnc-GFStack、LncADeep、mRNN和RNAsamba。使用宏平均F1分数作为主要性能指标。
3. 结果
3.1. LncRNA-BERT在lncRNA分类中达到或超越最先进性能并表现出更好的泛化能力
选择3-mer标记化和CSE (k=9)作为最优编码方法。在三个测试集上的评估表明,lncRNA-BERT在两个人类测试集上与其他最佳方法表现相当,但在更具挑战性的RNAChallenge测试集上显著优于所有其他方法。这表明NLM在区分编码和非编码RNA方面具有适用性。lncRNA-BERT作为纯序列方法,优于另一个纯序列方法mRNN,表明NLM架构在仅使用序列数据时可能具有优势。在去除与训练集有潜在重叠的CPAT子集上,lncRNA-BERT仍保持稳健性能。对模型决策的解释性分析发现,被正确分类的mRNA(真阳性)的ORF覆盖率显著高于被错误分类的mRNA(假阴性)。
3.2. 在人源mRNA/lncRNA上预训练可在无标签情况下捕获编码潜能
t-SNE可视化显示,使用人源数据预训练的lncRNA-BERT,其嵌入空间能清晰区分mRNA和lncRNA。学习曲线表明,与使用RNAcentral数据预训练或不进行预训练相比,使用人源数据预训练能带来更快的收敛速度和更高的F1分数(性能提升0.01–0.08)。这证实编码潜能是序列中一个显著的固有信号。使用RNAcentral预训练的模型在RNAcentral数据上MLM准确率高,但在人类lncRNA上表现较差,且其嵌入空间对mRNA和ncRNA的区分度不如人源模型。这表明基于RNAcentral的通用RNA语言模型可能不适合lncRNA分类任务。
3.3. 卷积序列编码改进了长RNA序列的预训练
在能达到较大序列压缩(≥6倍)的编码方法中,CSE能产生最有效的模型。CSE和K-mer标记化在探测任务上获得的F1分数较高。CSE通过使用可学习卷积从数据中提取重要模式,将k-mer视为核苷酸的组合,从而避免了K-mer标记化在大k值时面临的词汇表过大、参数爆炸以及需要学习多个阅读框信号的问题。BPE虽然压缩效率高,但其探测性能相对较低。对于较小的标记(如3-mer),K-mer和BPE在微调后性能略优于CSE,因为更短的标记允许更高分辨率的注意力。3-mer标记化提供的上下文长度(3×768=2304 nt)对于大多数RNA的编码潜能识别是足够的。
3.4. 序列编码方法中的三碱基周期性有益于性能并影响嵌入空间
与编码RNA三碱基周期性一致的编码方法(如k为3的倍数)能更好地区分mRNA和lncRNA,因为它们对生物阅读框敏感。然而,这种阅读框敏感性也带来负面影响:同一RNA序列若起始位置发生移码,其序列级嵌入会在嵌入空间中跳跃到代表不同阅读框的坐标上(对于K-mer和k为3倍数的CSE)。而BPE或k不为3倍数的CSE(如k=10)则能保持嵌入的稳定性。这种效应在非编码序列中未观察到。将k设置为非3的倍数可以打破三碱基周期性,缓解移码敏感性。
3.5. mRNA/lncRNA数据的嵌入空间揭示了不同NLM之间的差异
与主要在RNAcentral上预训练的其他RNA NLM(如BiRNA-BERT)相比,在人源数据上预训练的lncRNA-BERT能更清晰地区分mRNA和ncRNA。RiNALMo模型(参数量650M)虽然也能产生清晰区分,但模型规模远大于lncRNA-BERT(85M)。一些DNA NLM(如DNABERT-2、HyenaDNA)也显示出一定的RNA分类潜力,表明DNA NLM可能推广到RNA任务。具有长上下文能力的HyenaDNA表现与lncRNA-BERT相当。
4. 讨论
lncRNA-BERT在编码/非编码RNA分类任务上展示了最先进的性能。研究表明,编码潜能是序列固有特征,可被NLM学习。选择合适的编码方法和预训练数据对性能至关重要。CSE在处理长序列方面具有优势,而3-mer标记化在现有上下文长度下也足够有效。使用特定任务(人源mRNA/lncRNA)数据进行预训练是获得最佳性能的关键。虽然基于简单逻辑回归的CPAT等方法也能取得较高性能,表明二元分类任务可能接近性能平台,但lncRNA-BERT等纯序列方法为未来更细致地理解RNA功能奠定了基础。训练大型NLM需要大量计算资源,且其决策过程尚不透明,未来需要在可解释性方面进行更多研究。预计大型机构将负责训练基础NLM,而小型机构则可对其进行微调以用于特定领域应用。