融合前沿技术的 ZHMolGraph:开启 RNA - 蛋白质相互作用预测新时代

【字体: 时间:2025年02月17日 来源:Communications Biology 5.2

编辑推荐:

  为解决 RNA - 蛋白质相互作用(RPI)预测难题,华中师范大学的研究人员开展 ZHMolGraph 预测 RPI 的研究,发现该方法准确性高、泛化性强。这为 RPI 研究提供新途径,强烈推荐科研读者阅读,一同探索生命奥秘。

  
华中师范大学(Central China Normal University)生物物理研究所和物理系的研究人员 Haoquan Liu 等人在《Communications Biology》期刊上发表了题为 “RNA-protein interaction prediction using network-guided deep learning” 的论文。该研究成果在 RNA - 蛋白质相互作用(RNA-protein interaction,RPI)预测领域意义重大,为深入理解细胞调控机制、疾病发生发展以及药物研发等提供了新的技术手段和理论依据。

研究背景


RNA - 蛋白质复合物在许多细胞过程中至关重要,包括基因转录和转录后基因调控,并且与疾病密切相关 ,例如 HIV 等逆转录病毒依靠 RNA - 蛋白质相互作用在人体内复制。然而,由于 RNA 突变迅速,及时确定 RNA - 蛋白质复合物的结构极具挑战。目前,实验技术如 X 射线晶体学、核磁共振(Nuclear Magnetic Resonance,NMR)和冷冻电镜等虽能用于确定复合物结构和相互作用,但存在耗时久、成本高的缺点。一些计算方法借助结构评分函数预测复合物结构,但因可用的 RNA 和蛋白质实验结构有限,评分函数有待改进。深度学习虽推动了 RPI 预测的发展,但现有方法仍存在不足。传统机器学习依赖既定技术,难以应对 RNA 和蛋白质序列数据的指数级增长。深度学习模型则因 RNA 和蛋白质连接邻居分布不平衡、特征向量不均衡等问题,难以学习 “孤立” RNA 和蛋白质的结合倾向,导致预测未知 RNA 和蛋白质相互作用的准确性较低。因此,开发更准确、高效的 RPI 预测方法迫在眉睫。

关键技术方法


研究团队构建了 ZHMolGraph 深度学习管道,融合图神经网络(Graph Neural Network,GNN)与无监督大语言模型(Large Language Models,LLMs)预测 RNA - 蛋白质相互作用。

  1. 构建 RPI 网络:研究人员从蛋白质数据库(Protein Data Bank,PDB)、RNAInter 数据库和 NPInter5 数据库获取数据,分别构建了结构网络、高通量相互作用网络和文献挖掘验证网络。这些网络从不同层面展示了 RNA - 蛋白质相互作用的特征,为后续分析提供了基础。
  2. ZHMolGraph 架构:首先利用 RNA - FM 和 ProtTrans 模型生成 RNA 和蛋白质的 LLMs 嵌入特征,接着将这些特征输入图神经网络模块。图神经网络通过采样和聚合节点局部邻域特征,生成节点嵌入表示,最后将 LLMs 嵌入和图神经网络采样特征连接起来,输入 VecNN 预测结合可能性。
  3. 训练与测试:采用随机五折交叉验证策略训练 VecNN,使用 Adam 优化器和余弦退火学习率调度器,以二元交叉熵为损失函数进行模型训练。通过在多个数据集上的测试评估 ZHMolGraph 的性能。

研究结果


  1. RPI 网络特征
    • 分子 RPI 网络的无标度和高模块化:分析各类 RPI 网络的拓扑结构发现,它们均呈现无标度特征,即大多数蛋白质和 RNA 的相互作用有限,少数枢纽节点拥有大量结合记录 。同时,网络节点的度与拓扑系数呈反相关,表明网络具有高模块化,这为理解 RPI 网络的组织方式提供了新视角。
    • 残基 RPI 网络的无标度和高模块化:以 SARS-CoV-2-Nsp1-40S 复合物为例构建残基级网络,同样发现其具有无标度和高模块化特征。这意味着在序列中存在结合热点,且 RPI 网络的拓扑特征在不同尺度上具有一致性,有助于提升 RPI 预测的准确性。
    • 结构 RPI 网络中节点的附着能力:通过分析 2014 - 2023 年 PDB 数据库中 RNA - 蛋白质复合物构建动态网络,发现节点获取新链接的能力与度相关,度在 38 - 55 之间的节点获取新链接的能力较强,这一结果为基于网络特征的 RPI 预测提供了依据。

  2. 基准数据集上的 RPI 预测:在 NPInter2 和 RPI7317 基准数据集上进行五折交叉验证,ZHMolGraph 在各项评估指标上表现出色,如在 NPInter2 数据集上,准确率达 0.955,敏感性为 0.975,特异性为 0.938 等 ,MCC 值在与其他方法的比较中最高,表明其性能卓越。
  3. 未知节点的 RPI 预测:在更具挑战性的未知节点测试场景中,ZHMolGraph 同样表现优异。在 TheNovel 数据集上,其平均 AUROC 达到 0.798,AUPRC 为 0.820,相比其他方法有显著提升,证明其对未知 RNA 和蛋白质相互作用的预测可靠性更高。
  4. LLMs 和图嵌入的贡献:对比分析表明,LLMs 和 GNN 嵌入相互补充。在基准数据集上,LLMs 方法提升了模型性能;在未知测试数据集 TheNovel 上,LLMs 的优势更为明显,增强了模型对未知数据的适应性。
  5. 克服 “孤儿” RNA 和蛋白质的挑战:分析 “孤儿” 节点对 RPI 预测的影响,发现使用 LLM 嵌入方法在不同场景下均优于无 LLM 嵌入的方法。随着 “孤儿” 度增加,基于 LLMs 的方法表现更稳健,验证了 LLMs 分子嵌入可提高 RPI 预测模型的泛化能力。
  6. 跨物种模型性能:在不同物种上评估 ZHMolGraph 的性能,发现数据量和网络拓扑差异会影响模型表现,但 ZHMolGraph 在不同物种间仍具有较高的稳健性,能有效减少对特定 RNA 和蛋白质家族的结构偏差。
  7. 不同数据质量下的模型性能:研究输入序列含错误或不完整时 ZHMolGraph 的表现,发现序列错误率低于 10% 时,模型性能保持在较高水平,即使错误率达到 50%,仍能维持一定的预测能力,证明其具有较强的稳健性。
  8. 准确识别病毒 RNA - 蛋白质相互作用:在识别 SARS-CoV-2 相关的病毒 RNA - 蛋白质相互作用方面,ZHMolGraph 表现出色,召回率达 0.860,远高于 IPMiner 和 RPITER,展现出其在病毒研究领域的巨大潜力。

研究结论与意义


ZHMolGraph 结合无监督 LLMs 和图神经网络,在 RNA - 蛋白质相互作用预测方面取得了显著成果。与其他方法相比,它在基准数据集和未知节点数据集上均表现出更高的准确性和泛化能力。通过分析 RPI 网络特征,揭示了网络的无标度和高模块化特性,为理解 RNA - 蛋白质相互作用的机制提供了理论基础。ZHMolGraph 能够帮助预测 RNA - 蛋白质复合物结构,在预测未结合 RNA - 蛋白质复合物方面也表现出较高的准确性,为相关研究提供了有力工具。尽管目前该方法主要依赖序列信息,未来随着 RNA - 蛋白质复合物 3D 结构数据的增加,有望进一步提升其预测准确性,为深入研究 RNA - 蛋白质相互作用的物理机制奠定基础。这项研究成果不仅对基础生物学研究具有重要意义,还有助于推动药物研发等应用领域的发展,为攻克与 RNA - 蛋白质相互作用相关的疾病提供新的思路和方法。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号