BioLLMNet:基于跨模态语言模型转换网络增强RNA相互作用预测的新框架

《Briefings in Bioinformatics》:BioLLMNet: enhancing RNA-interaction prediction with a specialized cross-LLM transformation network

【字体: 时间:2025年10月27日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对RNA与蛋白质、小分子及其他RNA相互作用预测中依赖手工特征、结构数据稀缺等瓶颈,开发了首个基于序列的深度学习框架BioLLMNet。通过整合RNA(RiNALMo)、蛋白质(ESM-2)和小分子(MoleBERT)的语言模型嵌入,创新引入可学习门控机制实现跨模态特征自适应融合。实验表明,该方法在RNA-蛋白质(RPI1460数据集)、RNA-小分子(ROBIN数据库)及RNA-RNA(植物跨物种)预测任务中均达到最先进性能,为RNA相互作用研究提供了通用且可扩展的解决方案。

  
在细胞的生命活动中,核糖核酸(RNA)如同一个多面手,通过与蛋白质、小分子以及其他RNA的相互作用,参与调控基因表达、维持细胞稳态等关键过程。然而,准确预测这些相互作用却面临巨大挑战。传统计算方法往往依赖于手工设计的特征,或者需要难以获取的结构和理化数据,这限制了它们的通用性,也难以捕捉RNA相互作用中复杂多变的语义信息。
为了解决这些难题,来自孟加拉国工程技术大学的研究团队在《Briefings in Bioinformatics》上发表了题为“BioLLMNet: enhancing RNA-interaction prediction with a specialized cross-LLM transformation network”的研究论文,提出了一个名为BioLLMNet的创新框架。该框架首次将预训练的生物语言模型应用于RNA相互作用的全面预测,通过一种新颖的可学习门控机制,实现了不同生物模态间特征的自适应融合。
研究团队采用了多模态语言模型嵌入技术:使用RiNALMo模型编码RNA序列(维度1280),ESM-2模型编码蛋白质序列(维度1024),MoleBERT模型处理小分子的SMILES字符串(维度768)。针对不同模态嵌入维度不匹配的问题,他们设计了一个跨模态特征转换模块,通过单层MLP(多层感知机)将RNA嵌入投影到对应交互伙伴的维度空间。
核心创新在于引入了可学习门控融合机制。该机制通过一个可训练的门控向量,对转换后的RNA嵌入和伙伴嵌入进行特征级加权融合,使模型能够根据输入上下文动态调整各模态的贡献度。整个架构采用端到端训练,使用二元交叉熵损失函数进行优化。

RNA-蛋白质相互作用预测表现卓越

在RPI1460数据集上的五折交叉验证显示,BioLLMNet在所有评估指标上均优于现有最佳方法。其马修斯相关系数(MCC)达到0.848,比第二名RNAincoder提升11.6%;准确率为92.3%,提升4.9%。这些结果证实了语言模型表征结合门控融合策略的有效性。

RNA-小分子相互作用预测实现全面领先

在包含六种RNA亚型(适体、重复序列、核糖体RNA、核糖开关、病毒RNA和miRNA)的基准测试中,BioLLMNet在皮尔逊相关系数和平均绝对误差(MAE)上均表现优异。特别是在核糖体RNA类别中,皮尔逊相关系数提升5.1%,MAE改善10.3%。在二元分类任务中,该方法在所有RNA亚型上都取得了更高的MCC分数,病毒RNA的MCC更是达到0.975。

跨物种RNA-RNA相互作用预测展现强泛化能力

在拟南芥(Ath)、大豆(Gma)和蒺藜苜蓿(Mtr)三个物种的miRNA-lncRNA相互作用预测中,BioLLMNet在六种训练-测试组合中的四种取得了最高准确率。特别是在MTR-ATH组合中,相比CORAIN方法提升了17.2%,证明了该框架在处理同模态但长度差异显著序列时的有效性。

案例研究验证实用价值

以2QEX-0 RNA与37种蛋白质的相互作用为例,BioLLMNet成功预测了所有真实相互作用(召回率100%),仅产生两个假阳性结果(特异性75%)。与RNAincoder和LPI-CSFFR相比,BioLLMNet的混淆矩阵显示其具有更高的准确性和平衡性。

消融实验证实门控机制关键作用

通过比较拼接+MLP、元素级平均和门控融合三种策略,发现门控融合在RNA-蛋白质(MCC 0.848)、RNA-小分子(适体MCC 0.952)和RNA-RNA(MTR-ATH MCC 0.710)任务中均表现最佳,验证了自适应特征加权的重要性。
BioLLMNet代表了RNA相互作用预测领域的重要进展,首次实现了三种主要相互作用类型的统一建模。该方法仅依赖序列信息,避免了传统方法对结构数据和手工特征的依赖,为大规模RNA相互作用研究提供了强大工具。未来,结合跨模态注意力机制和联合预训练策略,有望进一步提升模型的解释性和预测性能。该框架的通用性也为其扩展到其他生物分子相互作用预测奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号