基于改进蜣螂优化算法的多分支集成网络RMDNet：RNA-蛋白结合位点预测新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月12日 来源：BMC Bioinformatics 2.9

编辑推荐：

　　本研究针对RNA结合蛋白(RBPs)与RNA相互作用位点预测的精度瓶颈，开发了集成CNN、CNN-Transformer和ResNet的多分支深度学习框架RMDNet。通过引入改进蜣螂优化算法(IDBO)动态融合序列与结构特征，在RBP-24基准测试中AUC达0.952，显著优于GraphProt等现有模型。该模型不仅能准确预测结合位点，其CNN层提取的motif与CISBP-RNA数据库已知模式高度吻合，为神经退行性疾病和癌症的机制研究提供了新工具。

在基因表达的精密调控网络中，RNA结合蛋白(RBPs)如同分子指挥家，通过识别特定RNA序列调控剪接、稳定性和翻译过程。然而，当这些"指挥家"失调时，可能导致灾难性后果——肌萎缩侧索硬化症(ALS)、额颞叶痴呆(FTD)和肝细胞癌(LIHC)等疾病都与RBP功能障碍密切相关。传统CLIP-seq技术虽能精确定位结合位点，但其高昂成本和耗时特性成为研究瓶颈，这促使计算生物学界寻求更高效的预测方法。

海南大学计算机科学与技术学院的研究团队在《BMC Bioinformatics》发表的研究中，提出了创新性解决方案RMDNet。该模型通过三大技术创新实现了突破：首先构建多分支架构（CNN捕捉局部motif、CNN-Transformer建模长程依赖、ResNet提取深层特征），其次采用GNN-DiffPool处理RNAfold预测的二级结构图，最后引入改进蜣螂优化算法(IDBO)动态调整分支权重。关键技术包括：滑动窗口处理变长RNA序列（9种窗口尺寸101-501）、加权交叉熵损失解决样本不平衡、余弦退火学习率调度优化训练过程。

多分支架构性能验证
在包含24种RBP的基准测试中，RMDNet的AUC(0.952)和MCC(0.804)全面超越DeepDW等模型。如图2所示，其PR-AUC达0.945，显示在正样本稀少时仍保持高精度。

特别值得注意的是，对难例蛋白ALKBH5的预测中，模型AUC仍保持0.755，显著优于基线方法。

结构特征的关键作用
图1c展示的结构建模模块通过DiffPool实现图层次化抽象。

消融实验显示，移除GNN结构特征导致MCC下降11.1%，证实RNA二级结构对结合位点识别具有不可替代的作用。

生物学解释性突破
从第一层CNN核提取的16个motif中（图6），9个与已知RBP结合模式显著匹配。

例如kernel 0识别的"ACA"模式与m⁶A reader YTHDF1的经典DRACH motif一致，而kernel 13捕获的GGA富集区与FET家族蛋白FUS的结合特性相符。

临床相关性验证
以肝癌相关蛋白YTHDF1为案例，模型预测的高置信度位点（图8）与CLIP-seq峰值区域空间分布高度一致。

特别在标准化序列位置98-100区域，预测信号与实验数据重叠率达89%，证实模型具备捕捉真实生物学信号的能力。

这项研究通过多模态特征融合和智能优化算法，将RNA-蛋白结合位点预测推向新高度。其创新性体现在：首次将DiffPool应用于RNA结构建模，开发IDBO算法实现动态特征加权，并通过大规模motif分析建立模型预测与生物学机制的桥梁。该框架不仅为研究RBP相关疾病提供新工具，其多分支集成策略对其它生物分子相互作用预测具有重要借鉴意义。未来整合进化保守性等特征，有望进一步提升模型在临床样本中的泛化能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号