
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习驱动的iDeepB模型:基于细胞特异性表达谱的RNA-蛋白互作高精度预测新方法
【字体: 大 中 小 】 时间:2025年08月07日 来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对现有CLIP-seq数据依赖性强、跨细胞预测准确性不足等问题,开发了集成细胞特异性RNA-seq/eCLIP-seq数据的深度学习模型iDeepB。该模型通过多尺度卷积网络与多头注意力机制,实现了RNA结合蛋白(RBP)在RNA上单碱基分辨率结合谱的精准预测,为解析RNA调控机制及疾病相关突变效应提供了新工具。
在生命活动的中心法则中,RNA作为遗传信息传递的关键载体,其与RNA结合蛋白(RBP)的相互作用调控着RNA剪接、转运、翻译等关键过程。然而现有技术存在两大瓶颈:一方面,依赖CLIP-seq的实验方法受限于基因表达变异性,难以捕捉动态互作;另一方面,主流深度学习模型如DeepBind、iDeepS等仅能预测结合片段而无法精确定位结合位点,且训练数据存在假阴性样本干扰。更棘手的是,不同细胞环境中RBP-RNA互作存在显著差异,但现有工具缺乏跨细胞预测能力。
上海交通大学图像处理与模式识别研究所的研究团队在《Nucleic Acids Research》发表的研究中,创新性地开发了iDeepB模型。该研究通过整合K562、HepG2等细胞系的RNA-seq与225组eCLIP-seq数据,构建表达谱感知的训练集,采用并行卷积模块-双向LSTM-多头注意力的混合架构,首次实现了跨细胞系的单碱基精度结合谱预测。关键技术包括:1)基于ENCODE数据库构建细胞特异性表达谱;2)采用滑动窗口法提取101bp序列训练集;3)集成梯度算法解析核苷酸贡献度;4)应用TF-MoDISco进行基序发现。
研究结果部分显示:
iDeepB预测RNA上单碱基分辨率结合谱
在测试集上达到平均Pearson相关系数0.31,显著优于RBPNet的0.26。对线粒体基因MT-ND5的独立验证显示,HNRNPA1结合预测与实验数据相关系数达0.7。
跨细胞动态互作预测
模型在K562与HepG2间的交叉验证揭示,结合位点共享比例与预测性能呈正相关(r=0.51)。以精神分裂症风险位点rs6981405为例,成功预测QKI结合受C>A突变影响。
RBP结合基序解析
通过输入梯度贡献图识别出RBFOX2等蛋白的特征基序,发现尿苷在交联位点的富集现象,暗示eCLIP-seq技术偏好性。
基因组变异效应量化
分析75,047个致病性SNP显示,剪接位点突变对结合谱影响最显著(效应值0.12),显著高于良性突变(0.03)。
这项研究的意义在于:1)建立了首个整合细胞特异性表达谱的RBP结合预测框架,突破现有模型静态预测局限;2)开发的多头注意力机制有效捕捉RNA序列长程依赖特征;3)为神经退行性疾病等RNA代谢异常疾病的机制研究提供新工具。特别值得注意的是,模型对线粒体RNA的结合预测能力,为探索线粒体功能障碍相关疾病开辟了新途径。研究构建的在线服务器(http://www.csbio.sjtu.edu.cn/bioinf/iDeepB/)将促进该技术在精准医学中的应用。
生物通微信公众号
知名企业招聘