基于随机搜索优化的卷积神经网络模型RSCNN-PseU:一种高效识别RNA假尿苷修饰的新方法

【字体: 时间:2025年08月18日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  为解决RNA假尿苷(Ψ)修饰识别效率低的问题,Minzu University of China的研究团队开发了RSCNN-PseU模型。该研究通过融合二核苷酸自由能(FreeEnergy)和亲水性(Hydrophilicity)的DFT特征提取方法,结合动态全连接层CNN架构与随机搜索优化,在人类、酵母和小鼠数据集上实现平均ACC达0.941-0.965。其创新特征工程和自适应模型调节机制为RNA修饰研究提供了新工具,对mRNA疫苗设计具有重要价值。

  

在生命科学领域,RNA修饰如同隐藏在基因序列中的"密码暗号",而假尿苷(Ψ)作为最常见的RNA修饰类型,被称为"RNA第五核苷酸"。这种由尿苷异构化形成的特殊修饰,不仅能增强RNA结构稳定性,还能通过降低mRNA免疫原性成为疫苗研发的关键元件。然而传统化学检测方法仅适用于短序列识别,高通量测序技术如Pseudo-seq又面临成本高昂的瓶颈。尽管已有机器学习模型如iPseU-CNN尝试突破,但特征表达能力和模型适应性仍存在显著局限。

针对这一挑战,Minzu University of China的Jian Jin和Jie Feng研究团队在《Briefings in Bioinformatics》发表了创新性研究成果。他们提出RSCNN-PseU模型,通过融合二核苷酸物理化学特征与深度学习架构,实现了Ψ位点的高精度预测。该研究首次将自由能和亲水性两种二核苷酸特性经离散傅里叶变换(DFT)转化为频域特征,构建出维度为2(N-1)的特征向量。采用动态全连接层CNN架构,利用随机搜索算法优化卷积核尺寸(conv_kernel)、全连接层数(sense_layers)等关键参数,在人类(H. sapiens)、酵母(S. cerevisiae)和小鼠(M. musculus)数据集上展现出超越现有方法的性能。

关键技术方法包括:1)基于CD-HIT去冗余处理的三个物种训练集(S1-S3)和两个独立测试集(S4-S5);2)自由能/亲水性DFT振幅特征提取;3)含最大池化层的混合CNN架构;4)10折交叉验证与SHAP特征重要性分析。

研究结果

序列分析

通过two-sample logo工具发现:人类Ψ序列中位点周围存在U富集和G/C偏态分布,酵母Ψ序列显示G富集特征,而小鼠Ψ序列呈现上下游U富集模式。这些保守特征为DFT特征设计提供了生物学依据。

特征重要性分析

SHAP分析揭示:人类数据集中FreeEnergy_Amp_1/11/16和Hydrophilicity_Amp_7贡献度最高;小鼠数据中FreeEnergy_Amp_11的SHAP值达0.15,对应RNA序列11-20位点的物理化学性质变化,与序列分析发现的"U-rich区域"高度吻合。

模型性能

在独立测试集S4上,RSCNN-PseU的ACC达0.965(AUC=0.978),较RF-PseU提升28.7%。跨物种比较显示,人类数据集需更复杂架构(2层全连接+SeLU激活),而酵母和小鼠仅需1层ReLU网络,证实模型的自适应调节能力。

方法对比

与七种主流算法相比,CNN在五项指标上全面领先:在S2数据集ACC达0.949,较LSTM提高12.3%;AUC值(0.951-0.962)显著优于XGBoost(0.7-0.77)。与iPseU-TWSVM相比,特征维度减少87.5%但ACC提升29.7%,证明DFT特征的高效性。

该研究通过物理化学特征与深度学习的前沿融合,建立了目前最精准的Ψ位点预测系统。其创新性体现在:1)首次将DFT频域分析应用于RNA修饰特征提取;2)开发动态架构调节机制适应不同物种需求;3)SHAP分析揭示FreeEnergy_Amp_11等关键特征位点。这些发现不仅为RNA修饰机制研究提供了新视角,其构建的2(N-1)维特征体系更为其他RNA修饰预测提供了可借鉴的范式。在mRNA药物研发领域,该技术有望加速修饰位点的理性设计,降低疫苗开发的试错成本。未来通过引入三核苷酸效应和元启发式算法,模型性能还有进一步提升空间。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号