LOCAS:基于监督对比学习的多标签mRNA亚细胞定位预测新方法

【字体: 时间:2025年08月28日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对mRNA亚细胞定位预测中单标签分类模型的局限性,开发了LOCAS(Localization with Supervised Contrastive Learning)多标签预测框架。该研究整合RNA语言模型(RiNALMo)生成序列嵌入,通过重叠阈值感知的监督对比学习(SCL)优化特征空间,并采用ML-Decoder进行多标签分类。在RNALocate和RNALocate V2.0数据集上验证表明,LOCAS各项指标均达最优,尤其对重叠标签的RNA序列预测准确率显著提升(平均MCC 0.621),为研究mRNA空间调控机制及疾病关联提供新工具。

  

12345678978654321

mRNA在细胞内的精确定位是基因调控的核心环节,从早期发现海鞘胚胎中肌动蛋白mRNA的极性分布,到揭示神经元突触中mRNA局部翻译对记忆形成的作用,这一过程始终是生命科学的研究热点。然而,传统实验方法如原位杂交(ISH)耗时昂贵,而早期计算模型如RNATracker、iLoc-mRNA等仅支持单标签预测,无法反映mRNA多定位的生物学本质。随着DM3Loc、Allocator等多标签模型的涌现,如何准确捕捉定位标签间的复杂关联成为新挑战。

LOCAS研究团队创新性地将自然语言处理领域的对比学习引入RNA研究。通过预训练语言模型RiNALMo将RNA序列转化为1280维嵌入向量,采用残差卷积与多头自注意力(8头)结合的编码器生成128维特征。针对多标签特性设计的重叠相似度算法(公式3)突破传统监督对比学习限制,当标签重叠度超过阈值θ时视为正样本对。最终通过ML-Decoder的交叉注意力机制实现九类亚细胞定位的并行预测,其线性计算复杂度显著优于传统Transformer解码器。

性能验证

在RNALocate V1.0的六类定位测试中,LOCAS平均MCC(0.621)远超第二名MSlocPRED(0.534),其中膜定位预测MCC达0.680。独立测试集RNALocate V2.0的九类预测显示,LOCAS的绝对真阳性率(0.288)比Clarion提高2%,覆盖误差(2.126)降低31.5%。特别在神经元相关定位(如突触小体)预测中,模型准确捕捉到与脆性X综合征相关的定位模式。

技术解析

  1. 1.

    RiNALMo语言模型:基于A/U/C/G四字符词汇表,通过[CLS]令牌生成序列级嵌入

  2. 2.

    重叠感知SCL:定义相似度阈值θ=0.6(补充材料),投影层将特征降至64维

  3. 3.

    ML-Decoder:移除自注意力模块,参数量减少至传统结构的1/4

生物学意义

该模型首次证实RNA语言模型特征与亚细胞定位的强相关性。在讨论部分,作者指出批次效应对SCL的影响(需确保每批含θ≥0.6的样本),这为后续研究指明优化方向。LOCAS对阿尔茨海默病相关tau蛋白mRNA的核质穿梭预测结果,为理解神经退行性疾病提供新视角。

研究同时发现,当定位标签包含核糖体与内质网(ER)时,模型预测置信度提升15%,这与已知的ER-核糖体协同转运机制相符。这种生物学可解释性使LOCAS超越传统黑箱模型,Dhaka-1000团队正将其应用于孟加拉国地区高发的神经发育障碍病例分析。论文发表于《Briefings in Bioinformatics》,开源代码已获GNU GPLv3认证。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号