
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多通道深度学习框架IntRNA的RNA宇宙编码潜能解析与功能注释新策略
【字体: 大 中 小 】 时间:2025年08月24日 来源:Advanced Science 14.1
编辑推荐:
这篇研究构建了多通道深度学习框架IntRNA,通过创新性提出724种间隙特征(G-features)和439种描述符特征(D-features),首次实现RNA序列的图像化表征(RNAImage),解决了RNA宇宙(RNA universe)三大核心问题:编码潜能解析、小非编码RNA(sncRNA)分类及环状/线性长链非编码RNA(lncRNA)区分。模型在跨物种测试中MCC值达94.2%,较现有工具提升25.6%,并通过特征重要性分析揭示长距离核苷酸相互作用(如37-GC)对编码潜能的关键调控。
RNA宇宙的深度解码:IntRNA框架的突破性进展
1 引言
RNA宇宙的分类体系将RNA分为信使RNA(mRNA)和非编码RNA(ncRNA),后者进一步划分为小非编码RNA(sncRNA)和长链非编码RNA(lncRNA)。然而,现有方法在编码潜能检测、sncRNA精细分类及环状/线性lncRNA区分方面存在显著局限。尤其缺乏对核苷酸长距离相互作用(如间隔40碱基的GC配对)的特征挖掘,且模型可解释性不足。
2.1 框架创新与特征工程
IntRNA通过两大创新突破瓶颈:
特征扩展:新增724种间隙特征(G-features)和439种描述符特征(D-features),将特征空间扩大4倍。例如,37-GC特征描述间隔37个碱基的GC配对,实验证实其突变可使编码潜能评分(CPS)下降23.8%。
图像化表征:基于78万条RNA序列构建D/G模板,将序列转化为28×27和27×27双通道图像,捕捉特征间非线性关联。
2.2 性能验证
在三大核心任务中,IntRNA全面超越现有工具:
编码潜能预测:人类数据集MCC达0.942,较CPPred提升18.3%;
跨物种测试:在酵母(Saccharomyces cerevisiae)中AUC保持0.978,验证模型普适性;
sncRNA分类:对核酶RNA的拓扑指数特征识别准确率达90%,揭示其催化折叠特性。
2.4 机制解析
特征重要性排名发现:
关键D-features:开放阅读框(ORF)和氢键特征(IS>0.8)主导mRNA识别;
长距G-features:20碱基以上间隔特征贡献度超短距特征3.2倍,如c-JUN mRNA中14-52位GC配对突变导致CPS下降47%。
2.5 结构功能映射
以c-JUN 5'-UTR(PDB:6NOA)为例:
9-15位茎环结构被eIF3蛋白识别的区域,其突变影响评分与实验数据吻合(p<0.001);
37-GC特征在功能区的贡献度较非功能区高2.1倍,揭示空间位置效应。
3 应用拓展
案例研究显示IntRNA可精准定位功能元件:
snoRNA:SNORD44的Box C/D' motif(24-29nt)结合潜能评分超侧翼序列3.5倍;
circRNA:circHIPK3的miR-124结合位点(46-55nt)突变使相互作用概率下降62%。
4 结论
IntRNA通过多尺度特征融合与可视化解析,为RNA功能注释提供了兼具高性能与可解释性的新范式,其开源代码和数据库(idrblab.org/intrna)将推动转录组学的深度挖掘。未来可通过自适应特征选择进一步提升环状RNA等特殊类型的分析精度。
生物通微信公众号
知名企业招聘