动态可解释的蛋白质-RNA相互作用预测:基于U型网络与新型结构编码的diPaRIS方法

【字体: 时间:2025年08月31日 来源:Advanced Science 14.1

编辑推荐:

  本文提出深度学习模型diPaRIS(动态可解释蛋白质-RNA相互作用预测系统),通过创新性开发icSHAPE-DS(动态结构编码)方案整合体内RNA结构特征,结合U型残差网络与多头注意力机制,显著提升RNA结合蛋白(RBP)结合位点的预测精度(平均AUC达0.9381)。该模型在44个数据集的跨细胞系测试中均优于现有方法,并能解析结合基序特征与遗传变异对疾病相关通路(如STAT5信号)的影响,为肿瘤(如白血病)的分子机制研究提供新工具。

  

动态可解释的蛋白质-RNA相互作用预测技术突破

蛋白质-RNA相互作用在转录调控、翻译控制等生物学过程中发挥核心作用,其异常与恶性肿瘤等疾病密切相关。传统实验方法如CLIP-seq虽能精确绘制结合位点,但存在耗时耗力、检测盲区等问题。现有计算方法虽引入RNA结构特征,却难以捕捉核苷酸间的动态关联。diPaRIS模型的诞生为这一领域带来突破性进展。

创新性结构编码方案

研究团队开发的icSHAPE-DS编码方案首次实现RNA动态结构的全面表征。该方案通过7维向量描述相邻核苷酸对,整合最大概率结构、结构形成概率变化(4个维度)和信息熵(1个维度)等特征。特别针对icSHAPE-seq数据缺失值,采用[-1, -1]标记连续缺失核苷酸,显著提升体内RNA折叠动态的表征能力。

U型网络架构优势

模型采用对称的U型残差网络,通过下采样模块(通道数32→128)捕获长程依赖关系,配合跳跃连接中的多头注意力机制(dropout率0.3)精准定位关键区域。上采样阶段通过转置卷积(核大小3)逐步恢复特征维度,结合金字塔池化模块(尺度1/5/25)实现多尺度特征融合。这种架构使模型在HepG2和K562细胞系测试中平均准确率达0.866,较次优方法提升8.2%。

跨条件预测性能验证

在44个数据集(含34种RBP)的测试中,diPaRIS全面超越DeepBind、PrismNet等方法:

  • 结合位点预测:PUM2-K562数据集ACC达0.9384

  • 跨细胞系预测:DDX3X在TGFB1转录本的结合位点全部准确识别

  • 蛋白家族分析:IGF2BP1-IGF2BP2交叉测试ACC 0.7413,显著高于非同源蛋白对

结构域特异性分析揭示,含G-patch结构域的蛋白预测性能提升最显著(较序列单独建模提升11.82%),这与该结构域C端RNA识别基序(RRM)的功能特性相符。锌指结构域(ZnF)蛋白因协同结合效应同样表现突出。

疾病相关机制解析

模型成功应用于临床相关场景:

  1. 1.

    遗传变异影响:发现TGFB1 3'UTR区49-89nt(近编码起始位点)和827-867nt(近转录起始位点)对DDX3X结合最敏感,其中56/75/83位点C→A变异使结合亲和力显著降低

  2. 2.

    RNA编辑事件:在K562细胞系鉴定46个A-to-I编辑显著改变结合位点,其中UPF1靶标基因(如ADAR、DDX6)富集于STAT5激活通路(R-HSA-9645135)

  3. 3.

    分子网络构建:UPF1相互作用网络包含9个白血病相关基因,其中AGO1(miRNA加工关键蛋白)的翻译后修饰位点与肿瘤发生密切相关

技术应用前景

diPaRIS的创新性体现在:

  • 解释性分析:通过位置权重矩阵(PWM)可视化DDX3X结合基序"CG-rich"模式

  • 临床转化:预测FLT3 ITD突变体下游STAT5激活(R-HSA-9702518)相关变异

  • 方法学突破:全局期望池化层实现特征的高效聚合,较传统方法提升AUPR 0.9017

该研究由中南大学高性能计算中心提供算力支持,相关成果为理解蛋白质-RNA相互作用在肿瘤(特别是白血病)中的调控机制提供新视角,同时为基于结构特征的精准医疗策略开发奠定基础。未来可进一步拓展至单细胞多组学数据整合分析,探索细胞异质性对动态相互作用的影响。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号