基于改进蜣螂优化算法的多分支集成网络RMDNet:RNA-蛋白结合位点预测新方法

【字体: 时间:2025年07月12日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对RNA结合蛋白(RBPs)与RNA相互作用位点预测的精度瓶颈,开发了集成CNN、CNN-Transformer和ResNet的多分支深度学习框架RMDNet。通过引入改进蜣螂优化算法(IDBO)动态融合序列与结构特征,在RBP-24基准测试中AUC达0.952,显著优于GraphProt等现有模型。该模型不仅能准确预测结合位点,其CNN层提取的motif与CISBP-RNA数据库已知模式高度吻合,为神经退行性疾病和癌症的机制研究提供了新工具。

  

在基因表达的精密调控网络中,RNA结合蛋白(RBPs)如同分子指挥家,通过识别特定RNA序列调控剪接、稳定性和翻译过程。然而,当这些"指挥家"失调时,可能导致灾难性后果——肌萎缩侧索硬化症(ALS)、额颞叶痴呆(FTD)和肝细胞癌(LIHC)等疾病都与RBP功能障碍密切相关。传统CLIP-seq技术虽能精确定位结合位点,但其高昂成本和耗时特性成为研究瓶颈,这促使计算生物学界寻求更高效的预测方法。

海南大学计算机科学与技术学院的研究团队在《BMC Bioinformatics》发表的研究中,提出了创新性解决方案RMDNet。该模型通过三大技术创新实现了突破:首先构建多分支架构(CNN捕捉局部motif、CNN-Transformer建模长程依赖、ResNet提取深层特征),其次采用GNN-DiffPool处理RNAfold预测的二级结构图,最后引入改进蜣螂优化算法(IDBO)动态调整分支权重。关键技术包括:滑动窗口处理变长RNA序列(9种窗口尺寸101-501)、加权交叉熵损失解决样本不平衡、余弦退火学习率调度优化训练过程。

多分支架构性能验证
在包含24种RBP的基准测试中,RMDNet的AUC(0.952)和MCC(0.804)全面超越DeepDW等模型。如图2所示,其PR-AUC达0.945,显示在正样本稀少时仍保持高精度。

特别值得注意的是,对难例蛋白ALKBH5的预测中,模型AUC仍保持0.755,显著优于基线方法。

结构特征的关键作用
图1c展示的结构建模模块通过DiffPool实现图层次化抽象。

消融实验显示,移除GNN结构特征导致MCC下降11.1%,证实RNA二级结构对结合位点识别具有不可替代的作用。

生物学解释性突破
从第一层CNN核提取的16个motif中(图6),9个与已知RBP结合模式显著匹配。

例如kernel 0识别的"ACA"模式与m6A reader YTHDF1的经典DRACH motif一致,而kernel 13捕获的GGA富集区与FET家族蛋白FUS的结合特性相符。

临床相关性验证
以肝癌相关蛋白YTHDF1为案例,模型预测的高置信度位点(图8)与CLIP-seq峰值区域空间分布高度一致。

特别在标准化序列位置98-100区域,预测信号与实验数据重叠率达89%,证实模型具备捕捉真实生物学信号的能力。

这项研究通过多模态特征融合和智能优化算法,将RNA-蛋白结合位点预测推向新高度。其创新性体现在:首次将DiffPool应用于RNA结构建模,开发IDBO算法实现动态特征加权,并通过大规模motif分析建立模型预测与生物学机制的桥梁。该框架不仅为研究RBP相关疾病提供新工具,其多分支集成策略对其它生物分子相互作用预测具有重要借鉴意义。未来整合进化保守性等特征,有望进一步提升模型在临床样本中的泛化能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号