基于BERT的C/D框snoRNA全真核生物预测工具SnoBIRD的开发与应用

【字体: 时间:2025年07月31日 来源:Nucleic Acids Research 13.1

编辑推荐:

  研究人员针对现有snoRNA注释不完整、假基因鉴别缺失等问题,开发了基于BERT的预测工具SnoBIRD。该工具通过整合跨真核生物的训练数据,首次实现C/D框snoRNA及其假基因的精准识别,在人类和裂殖酵母等物种中发现数百个新型snoRNA,为研究非编码RNA的进化与功能提供了重要资源。

  

在真核生物复杂的基因调控网络中,小核仁RNA(snoRNA)作为一类古老的非编码RNA,不仅指导核糖体RNA(rRNA)的2'-O-甲基化和假尿苷化修饰,近年更被发现参与剪接调控、染色质重塑等新兴功能。然而当前snoRNA注释存在三大困境:跨物种注释不均衡、假基因未被区分、预测工具性能局限。以人类为例,现有注释中高达65%的snoRNA实际为不表达的假基因,这些"基因组化石"与功能性snoRNA在序列特征、结构稳定性等方面存在显著差异,却长期被混为一谈。

加拿大舍布鲁克大学(Université de Sherbrooke)的研究团队在《Nucleic Acids Research》发表的研究中,开发了革命性的预测工具SnoBIRD。这项研究通过整合18个真核生物物种的1,616个snoRNA数据,构建了首个能同时识别C/D框snoRNA及其假基因的双模型系统。核心发现表明:SnoBIRD在测试集中以F1值0.964的精度区分功能性snoRNA与假基因,远超现有工具;全基因组扫描显示其运行效率比传统方法提升37倍,在人类基因组中鉴定出22个新型snoRNA;跨物种比较揭示了snoRNA在SF3B3宿主基因位点的进化轨迹。

关键技术方法包括:1) 收集跨物种TGIRT-Seq数据建立训练集;2) 采用DNABERT框架构建双阶段预测模型;3) 整合SHAP值解析特征重要性;4) 通过RNA免疫共沉淀验证新型snoRNA;5) 应用snoGloBe预测靶标互作。

【模型性能突破】
通过1,184个功能性snoRNA和432个假基因的训练,SnoBIRD的SHAP分析显示其能自主识别C/D框特征(如C-box的RUGAUGA序列),在测试集召回率达89.3%。相较于Snoscan等工具,SnoBIRD对原核生物snoRNA的识别准确率提升2.1倍,且唯一具备假基因检测能力。

【基因组规模应用】
在裂殖酵母中,SnoBIRD发现8个新型snoRNA(如CD_531),实验证实其能与NOP58蛋白结合。人类基因组分析显示,89%的已知snoRNA被准确识别,新发现的SNORD91亚型修正了现有注释错误。工具运行时间从Snoscan的51天缩短至13小时。

【进化生物学启示】
跨物种分析揭示:1) 假基因比例随生物复杂度增加(人类65% vs 酵母0%);2) SF3B3基因座snoRNA在猕猴中退化为假基因,而在果蝇保留功能,暗示谱系特异性进化;3) 脊椎动物snoRNA显著富集于内含子区(P<0.001)。

这项研究建立的snoRNA注释新标准,不仅解决了非编码RNA组学中的关键瓶颈,其"序列嵌入+特征过滤"的双层架构更为其他结构化RNA预测提供了范式。特别值得注意的是,SnoBIRD首次系统揭示snoRNA假基因的广泛存在,为研究RNA分子进化提供了全新维度。随着更多物种数据的积累,该工具将助力揭示非编码RNA在生命演化中的深层规律。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号