基于RNA语言模型预测SARS-CoV-2基因组相互作用

【字体: 时间:2025年09月14日 来源:Biosafety and Health 3

编辑推荐:

  本研究针对SARS-CoV-2 RNA-RNA相互作用(RRI)预测难题,研究人员整合vRIC-Seq数据和多种机器学习方法(包括One-Hot、Word2Vec、深度神经网络及RNAErnie框架),构建高精度预测模型,揭示了病毒基因组互作规律,为抗病毒靶点开发提供新范式。

  

新型冠状病毒SARS-CoV-2引发的全球健康危机,不仅暴露了医疗系统的脆弱性,更凸显了对病毒分子机制深入理解的迫切性。作为单链RNA病毒,SARS-CoV-2的复制、转录及与宿主细胞的相互作用依赖于复杂的RNA-RNA相互作用网络。这些相互作用不仅调控病毒自身功能,还影响宿主免疫应答,因此解析局部RNA相互作用对于揭示病毒调控机制和开发靶向治疗策略具有重要意义。然而,传统实验方法如RNA免疫沉淀(RIP)、交联免疫沉淀(CLIP)等虽能提供直接证据,但耗时耗力且通量有限;而早期计算预测方法往往受限于特征表示能力和模型复杂度,难以捕捉RNA序列中的长程依赖和复杂模式。

在这一背景下,上海大学的研究团队开展了一项创新性研究,他们巧妙地将先进的RNA原位构象测序技术(vRIC-Seq)与多种机器学习算法相结合,构建了一个高效预测SARS-CoV-2基因组RNA-RNA相互作用的计算框架。该研究不仅为理解病毒生命周期提供了新视角,也为针对其他病毒系统的研究提供了可扩展的方法学范式。相关成果发表在《Biosafety and Health》杂志上。

研究团队主要采用了四种关键技术方法:首先利用vRIC-Seq技术从完整病毒颗粒中获取核苷酸分辨率的RNA构象图谱,数据来源于GEO数据库( accession number GSE155733);接着采用基于One-Hot编码和Word2Vec嵌入的传统机器学习方法(包括随机森林RF、支持向量机SVM和K近邻KNN);然后引入深度迁移学习框架deepRAM,结合卷积神经网络CNN和循环神经网络RNN模块;最后采用基于Transformer架构的RNAErnie语言模型进行下游任务微调。所有分析均基于SARS-CoV-2武汉-Hu-1毒株的完整基因组序列(GenBank: NC_045512.2)。

在数据准备与处理方面,研究人员通过Juicebox软件对vRIC-Seq数据进行质量控制和可视化,保留相互作用强度大于9的位点对作为阳性样本,同时随机生成非重叠的阴性样本。每个位点提取其周围特定长度的序列片段,为后续特征提取和模型训练奠定基础。

在传统分类器方法研究中,团队系统比较了三种不同编码方式下的模型性能。结果显示,在使用One-Hot编码时,随机森林(RF)表现最佳,准确率达到0.8105,AUC值为0.8929,其在召回率(0.7895)和F1分数(0.8064)上也保持领先,表明集成学习方法能有效捕捉复杂特征关系。而支持向量机(SVM)虽然精确度最高(0.8769),但假阳性率较高(17.5%),存在过拟合风险。当采用Word2Vec嵌入时,所有分类器性能均有显著提升,其中KNN在k=4时表现最优,准确率和AUC分别达到0.8661和0.9335,说明动态词向量表示能更好地捕捉序列上下文语义信息。

深度迁移学习模型deepRAM的表现更加引人注目。研究发现,模型性能受嵌入方法和网络架构的共同影响:使用One-Hot编码时,CNN-RNN混合架构效果最佳(AUC=0.9392),证明结合局部特征提取和长程依赖建模的优势;而使用Word2Vec时,简单CNN架构反而表现更好(AUC=0.9581),表明预训练嵌入已包含足够语义信息。特别值得注意的是,CNN-RNN混合架构在训练过程中收敛速度最快,且展现出最低的假阳性率(6.5%),显示出优异的泛化能力。

最先进的RNAErnie模型则实现了全面性能提升,准确率达到0.8874,AUC值高达0.9550。该模型通过三阶段掩码策略预训练,充分学习RNA序列中的生物学先验,再通过CNN-LSTM混合神经网络进行高阶特征提取,最终在完全连接层实现精准分类。混淆矩阵分析显示,该模型在负样本识别上表现尤其出色,假阳性率仅4.1%,大大降低了后续实验验证的成本。

研究结论表明,RNAErnie深度学习模型在预测RNA-RNA相互作用方面显著优于传统方法,其成功源于多层次特征学习和自注意力机制对长程核苷酸相互作用的有效捕捉。深度RAM模型通过神经架构与特征嵌入的协同设计,也展现出解决RNA序列中局部和全局决定因素的双重能力。相比之下,传统One-Hot编码方法因高维稀疏性难以捕捉细微的相互作用模式,而Word2Vec虽有所改进,但仍受固定窗口大小的限制。

这项研究的深远意义在于建立了计算生物学与病毒学研究之间的新桥梁。所开发的计算框架不仅能深化对SARS-CoV-2复制机制的理解,还为预测新突变株的功能影响提供了工具,指导靶向治疗策略的开发。随着RNA病毒数据的不断积累,这种结合深度学习与自然语言处理技术的方法有望扩展到更复杂的RNA病毒宏观模型构建,整合温度变化、突变性和宿主特异性等环境变量,最终为疫苗设计、药物发现和病毒传播防控提供理论支持。研究人员已公开所有源代码和模型(https://github.com/VV1025/RNA-language-models),为科学共同体进一步探索RNA相互作用提供了宝贵资源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号