基于多通道深度学习框架IntRNA的RNA宇宙编码潜能解析与功能注释新策略

【字体: 时间:2025年08月24日 来源:Advanced Science 14.1

编辑推荐:

  这篇研究构建了多通道深度学习框架IntRNA,通过创新性提出724种间隙特征(G-features)和439种描述符特征(D-features),首次实现RNA序列的图像化表征(RNAImage),解决了RNA宇宙(RNA universe)三大核心问题:编码潜能解析、小非编码RNA(sncRNA)分类及环状/线性长链非编码RNA(lncRNA)区分。模型在跨物种测试中MCC值达94.2%,较现有工具提升25.6%,并通过特征重要性分析揭示长距离核苷酸相互作用(如37-GC)对编码潜能的关键调控。

  

RNA宇宙的深度解码:IntRNA框架的突破性进展

1 引言

RNA宇宙的分类体系将RNA分为信使RNA(mRNA)和非编码RNA(ncRNA),后者进一步划分为小非编码RNA(sncRNA)和长链非编码RNA(lncRNA)。然而,现有方法在编码潜能检测、sncRNA精细分类及环状/线性lncRNA区分方面存在显著局限。尤其缺乏对核苷酸长距离相互作用(如间隔40碱基的GC配对)的特征挖掘,且模型可解释性不足。

2.1 框架创新与特征工程

IntRNA通过两大创新突破瓶颈:

  • 特征扩展:新增724种间隙特征(G-features)和439种描述符特征(D-features),将特征空间扩大4倍。例如,37-GC特征描述间隔37个碱基的GC配对,实验证实其突变可使编码潜能评分(CPS)下降23.8%。

  • 图像化表征:基于78万条RNA序列构建D/G模板,将序列转化为28×27和27×27双通道图像,捕捉特征间非线性关联。

2.2 性能验证

在三大核心任务中,IntRNA全面超越现有工具:

  • 编码潜能预测:人类数据集MCC达0.942,较CPPred提升18.3%;

  • 跨物种测试:在酵母(Saccharomyces cerevisiae)中AUC保持0.978,验证模型普适性;

  • sncRNA分类:对核酶RNA的拓扑指数特征识别准确率达90%,揭示其催化折叠特性。

2.4 机制解析

特征重要性排名发现:

  • 关键D-features:开放阅读框(ORF)和氢键特征(IS>0.8)主导mRNA识别;

  • 长距G-features:20碱基以上间隔特征贡献度超短距特征3.2倍,如c-JUN mRNA中14-52位GC配对突变导致CPS下降47%。

2.5 结构功能映射

以c-JUN 5'-UTR(PDB:6NOA)为例:

  • 9-15位茎环结构被eIF3蛋白识别的区域,其突变影响评分与实验数据吻合(p<0.001);

  • 37-GC特征在功能区的贡献度较非功能区高2.1倍,揭示空间位置效应。

3 应用拓展

案例研究显示IntRNA可精准定位功能元件:

  • snoRNA:SNORD44的Box C/D' motif(24-29nt)结合潜能评分超侧翼序列3.5倍;

  • circRNA:circHIPK3的miR-124结合位点(46-55nt)突变使相互作用概率下降62%。

4 结论

IntRNA通过多尺度特征融合与可视化解析,为RNA功能注释提供了兼具高性能与可解释性的新范式,其开源代码和数据库(idrblab.org/intrna)将推动转录组学的深度挖掘。未来可通过自适应特征选择进一步提升环状RNA等特殊类型的分析精度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号