LncRNA-BERT：基于RNA语言模型的编码与非编码RNA分类新方法

《Connection Science》：LncRNA-BERT: an RNA language model for classifying coding and long non-coding RNA

【字体：大中小】 时间：2026年02月04日 来源：Connection Science 3.4

编辑推荐：

　　本文推荐了一篇关于利用大型语言模型（LLM）进行长链非编码RNA（lncRNA）分类的前沿研究。作者提出的lncRNA-BERT模型，通过在人源RNA数据（GENCODE、RefSeq、NONCODE）上进行预训练和微调，在多个测试集上达到或超越了现有最佳分类器性能。研究创新性地比较了卷积序列编码（CSE）等四种序列编码方法，证实了编码潜力是序列内在特征。该工作为RNA功能注释提供了强大的纯序列分析工具。

摘要

随着RNA测序技术的进步，准确区分编码RNA和长链非编码RNA（lncRNA）变得至关重要。传统方法依赖于一组预定义的特征（如开放阅读框长度、k-mer频率等），存在局限性。本研究提出了lncRNA-BERT，一种基于Transformer架构的RNA语言模型，专门用于区分mRNA和lncRNA。该模型在GENCODE、RefSeq和NONCODE数据库收集的人源RNA序列上进行预训练和微调，在三个测试数据集（包括跨物种的RNAChallenge基准）上达到或超越了最先进分类器的性能。研究发现，即使在没有监督学习的情况下，预训练后的lncRNA-BERT也能区分编码和非编码RNA，证实编码潜能是序列固有的特征。此外，研究提出了一种新颖的卷积序列编码（Convolutional Sequence Encoding, CSE）方法，在处理长RNA序列时，其效率和性能优于K-mer标记化和字节对编码（Byte Pair Encoding, BPE）。

1. 引言

高通量RNA测序技术的广泛应用产生了大量RNA转录本数据。长链非编码RNA（lncRNA，长度≥200 nt）已被证明具有重要的调控功能。目前有超过40种算法可用于lncRNA分类，大多数是基于机器学习模型（如CPC、CNCI、CPAT、CPC2），它们依赖于开放阅读框（ORF）长度、蛋白质数据库比对结果等特征。然而，分类任务存在内在模糊性：一些lncRNA含有可翻译成小肽的短ORF，而某些mRNA基因则存在非编码异构体。

尽管已有基于序列的深度学习方法被提出（如使用卷积神经网络CNN或循环神经网络RNN），但在近期的一项基准测试中，它们的表现被基于特征或混合方法超越。Transformer架构通过自注意力机制克服了CNN/RNN的局限性。核苷酸语言模型（Nucleotide Language Model, NLM）作为大型语言模型（Large Language Model, LLM）在基因组学领域已展现出潜力，但现有的RNA语言模型可能因主要使用RNAcentral（不含mRNA）数据以及有限的上下文长度而不适合编码潜能检测。

本研究介绍了lncRNA-BERT，其主要贡献包括：1）在三个不同测试集上取得了最先进的分类性能，并在最具挑战性的跨物种RNAChallenge测试集上显著优于其他方法；2）通过在人源mRNA/lncRNA上预训练，模型无需标签即可有效区分mRNA和lncRNA；3）深入比较了四种序列编码方法，证明了新颖的卷积序列编码（CSE）在处理长RNA序列方面的有效性。

2. 方法

2.1. 数据

预训练数据集整合了GENCODE (v46)、NONCODE (v6)和RefSeq (v225)的所有RNA序列，包含297,724条mRNA和238,470条lncRNA序列。使用CD-HIT算法（90%序列一致性阈值）对GENCODE和RefSeq的组合数据进行去冗余处理，生成代表性的非冗余RNA序列，并随机划分为训练集（90%）、验证集（5%）和测试集（5%）。此外，还使用了CPAT数据集（4,000条mRNA和4,000条lncRNA）和RNAChallenge数据集（27,283条难以分类的跨物种RNA序列）进行独立评估。

2.2. 编码方法

比较了四种序列编码方法：

•
核苷酸水平标记化（Nucleotide-Level Tokenization, NUC）：使用四个核苷酸（A, C, G, U/T）作为词汇表。序列长度压缩效率低。
•
K-mer标记化（K-mer Tokenization）：将序列划分为连续的非重叠k-mer。词汇表大小为4^k，k值大时会导致词汇表爆炸和参数激增，且需学习k种阅读框下的信号。
•
字节对编码（Byte Pair Encoding, BPE）：基于频率合并字符对，产生可变长度的标记。相比K-mer，在相同词汇量下序列压缩率更高，标记采样效率更好，对移码更鲁棒。
•
卷积序列编码（Convolutional Sequence Encoding, CSE）：通过一维卷积层直接将核苷酸序列（表示为位置权重矩阵PWM）嵌入到高维空间。使用大小为k的卷积核，步长也为k，从而将序列长度减少k倍。该方法参数效率高，并能保持核苷酸级分辨率。

2.3. 语言模型架构

lncRNA-BERT基于BERT_medium架构，包含12个Transformer块，隐藏维度d_model=768，前馈网络维度d_ff=3072，12个注意力头，上下文长度c=768。模型参数量为85M。对于CSE模型，使用可学习的CLS嵌入进行分类，并采用转置卷积实现核苷酸级的掩码语言建模（Masked Language Modeling, MLM）预测。

2.4. 训练

•
预训练：使用MLM任务，掩码比例为15%。使用Adam优化器，交叉熵损失函数。
•
微调：在去冗余后的GENCODE/RefSeq数据（101,270条mRNA, 48,785条lncRNA）上微调所有参数，进行编码潜能分类。使用Adam优化器，学习率10^-5，二元交叉熵损失函数，并采用类别权重平衡。
•
探测（Probing）：训练一个小的多层感知机（MLP）在预训练模型的平均池化输出嵌入上进行分类，以评估预训练模型本身编码的编码潜能信息。

2.5. 实验设置

将现有lncRNA分类方法使用的特征归纳为五类：ORF相关特征、序列模式、数据库比对、理化特性、二级结构。将lncRNA-BERT与六种已发表的方法进行比较，包括CPAT、LncFinder、PredLnc-GFStack、LncADeep、mRNN和RNAsamba。使用宏平均F1分数作为主要性能指标。

3. 结果

3.1. LncRNA-BERT在lncRNA分类中达到或超越最先进性能并表现出更好的泛化能力

选择3-mer标记化和CSE (k=9)作为最优编码方法。在三个测试集上的评估表明，lncRNA-BERT在两个人类测试集上与其他最佳方法表现相当，但在更具挑战性的RNAChallenge测试集上显著优于所有其他方法。这表明NLM在区分编码和非编码RNA方面具有适用性。lncRNA-BERT作为纯序列方法，优于另一个纯序列方法mRNN，表明NLM架构在仅使用序列数据时可能具有优势。在去除与训练集有潜在重叠的CPAT子集上，lncRNA-BERT仍保持稳健性能。对模型决策的解释性分析发现，被正确分类的mRNA（真阳性）的ORF覆盖率显著高于被错误分类的mRNA（假阴性）。

3.2. 在人源mRNA/lncRNA上预训练可在无标签情况下捕获编码潜能

t-SNE可视化显示，使用人源数据预训练的lncRNA-BERT，其嵌入空间能清晰区分mRNA和lncRNA。学习曲线表明，与使用RNAcentral数据预训练或不进行预训练相比，使用人源数据预训练能带来更快的收敛速度和更高的F1分数（性能提升0.01–0.08）。这证实编码潜能是序列中一个显著的固有信号。使用RNAcentral预训练的模型在RNAcentral数据上MLM准确率高，但在人类lncRNA上表现较差，且其嵌入空间对mRNA和ncRNA的区分度不如人源模型。这表明基于RNAcentral的通用RNA语言模型可能不适合lncRNA分类任务。

3.3. 卷积序列编码改进了长RNA序列的预训练

在能达到较大序列压缩（≥6倍）的编码方法中，CSE能产生最有效的模型。CSE和K-mer标记化在探测任务上获得的F1分数较高。CSE通过使用可学习卷积从数据中提取重要模式，将k-mer视为核苷酸的组合，从而避免了K-mer标记化在大k值时面临的词汇表过大、参数爆炸以及需要学习多个阅读框信号的问题。BPE虽然压缩效率高，但其探测性能相对较低。对于较小的标记（如3-mer），K-mer和BPE在微调后性能略优于CSE，因为更短的标记允许更高分辨率的注意力。3-mer标记化提供的上下文长度（3×768=2304 nt）对于大多数RNA的编码潜能识别是足够的。

3.4. 序列编码方法中的三碱基周期性有益于性能并影响嵌入空间

与编码RNA三碱基周期性一致的编码方法（如k为3的倍数）能更好地区分mRNA和lncRNA，因为它们对生物阅读框敏感。然而，这种阅读框敏感性也带来负面影响：同一RNA序列若起始位置发生移码，其序列级嵌入会在嵌入空间中跳跃到代表不同阅读框的坐标上（对于K-mer和k为3倍数的CSE）。而BPE或k不为3倍数的CSE（如k=10）则能保持嵌入的稳定性。这种效应在非编码序列中未观察到。将k设置为非3的倍数可以打破三碱基周期性，缓解移码敏感性。

3.5. mRNA/lncRNA数据的嵌入空间揭示了不同NLM之间的差异

与主要在RNAcentral上预训练的其他RNA NLM（如BiRNA-BERT）相比，在人源数据上预训练的lncRNA-BERT能更清晰地区分mRNA和ncRNA。RiNALMo模型（参数量650M）虽然也能产生清晰区分，但模型规模远大于lncRNA-BERT（85M）。一些DNA NLM（如DNABERT-2、HyenaDNA）也显示出一定的RNA分类潜力，表明DNA NLM可能推广到RNA任务。具有长上下文能力的HyenaDNA表现与lncRNA-BERT相当。

4. 讨论

lncRNA-BERT在编码/非编码RNA分类任务上展示了最先进的性能。研究表明，编码潜能是序列固有特征，可被NLM学习。选择合适的编码方法和预训练数据对性能至关重要。CSE在处理长序列方面具有优势，而3-mer标记化在现有上下文长度下也足够有效。使用特定任务（人源mRNA/lncRNA）数据进行预训练是获得最佳性能的关键。虽然基于简单逻辑回归的CPAT等方法也能取得较高性能，表明二元分类任务可能接近性能平台，但lncRNA-BERT等纯序列方法为未来更细致地理解RNA功能奠定了基础。训练大型NLM需要大量计算资源，且其决策过程尚不透明，未来需要在可解释性方面进行更多研究。预计大型机构将负责训练基础NLM，而小型机构则可对其进行微调以用于特定领域应用。

热点排行

新闻专题