深度学习解码正常和癌组织中的RNA翻译位点

【字体: 时间:2025年02月03日 来源:Nature Communications

编辑推荐:

  RNA翻译是一个核心的细胞过程,在癌症中不受控制。在这里,作者展示了一种机器学习方法,RiboTIE,可以重建癌细胞和非癌细胞中的RNA翻译。在髓母细胞瘤(一种脑癌)中,核糖tie能够发现亚型特异性微蛋白。

  

深度学习助力解析正常与癌组织中 RNA 翻译位点的研究突破


近日,来自密歇根大学儿科血液学 / 肿瘤学系等多个单位的研究人员,以 Jim Clauwaert 为第一作者,在《Nature Communications》期刊上发表了题为 “Deep learning to decode sites of RNA translation in normal and cancerous tissues” 的论文。这一研究成果在生物学和医学领域具有重要意义,为深入理解 RNA 翻译过程以及相关疾病的发病机制提供了新的视角和有力工具。

RNA 翻译作为细胞生命的基本生物学过程,对人类疾病有着广泛影响。准确描绘 RNA 翻译的变化一直是一个重大挑战,这是由于该过程本身的复杂性以及技术上的限制。在这篇论文中,研究人员引入了 RiboTIE,这是一种基于 Transformer 模型的创新方法,旨在提升对核糖体图谱数据的分析能力,进而推动对蛋白质合成及其在疾病中作用的理解。

核糖体图谱(Ribo - Seq)是一种用于获取核糖体活性全局信息的技术,它在确定 mRNA 的翻译效率、检测非规范开放阅读框(ORF)和替代蛋白形式方面越来越受欢迎,这些信息对于从新基因发现到疾病靶向治疗研究等众多领域至关重要。然而,Ribo - Seq 数据分析面临诸多难题。生物因素(如组织类型、细胞系与组织样本的差异)和技术因素(如翻译抑制剂、实验室协议的不同)导致映射的核糖体读取模式与翻译之间存在可变模式,使得检测小 ORF 的统计能力不足。现有的分析工具,如 ORFquant、RpBp 等,在检测翻译的 ORF 时存在显著分歧,且假阳性预测较多,难以满足研究需求。

研究人员运用了多种研究材料和方法来深入探究 RNA 翻译过程,并验证 RiboTIE 的性能。在细胞培养方面,使用了多种髓母细胞瘤细胞系,包括 DAOY、CHLA - 01MEDR 等,这些细胞系来源不同且具有各自的培养条件,确保了实验细胞模型的多样性和代表性。对于核糖体图谱数据的获取,除了利用已发表的髓母细胞瘤细胞系和组织数据,还针对部分细胞系生成了匹配的高三尖杉酯碱(HHT)处理后的核糖体图谱数据,详细的实验步骤包括细胞培养、药物处理、细胞裂解、RNA 消化、RPF 分离等一系列复杂流程,以获取高质量的数据用于后续分析。

在数据处理和模型构建方面,所有数据均使用相同的方法进行映射和处理,以 Ensembl assembly GRCh38 version 110 为参考转录组,通过 cutadapt 和 STAR 等工具进行数据预处理。RiboTIE 的独特之处在于其直接利用原始核糖体图谱计数,仅处理沿转录本的映射 RPF 计数,避免了相关序列信息和 ORF 特征可能带来的偏差。它通过计算向量嵌入来表示转录本上每个位置的信息,并基于 Transformer 网络构建模型,为了避免过拟合且覆盖全转录组,训练了两个模型在非重叠的转录组折叠上,最后将两个模型的输出结合以获得完整的预测集。

研究人员还将 RiboTIE 与其他常用工具进行基准测试比较,评估指标包括 ROC AUC、PR AUC 等,并对胰腺祖细胞、胎儿和成人脑组织细胞以及髓母细胞瘤组织样本进行分析,以验证 RiboTIE 在不同样本中的性能。此外,通过质谱分析为 RiboTIE 提名的 ncORFs 提供正交证据,进一步探究 ncORFs 在髓母细胞瘤中的作用机制。

研究结果


RiboTIE 的独特设计与优势


RiboTIE 具有多个独特设计。它省略了一些常见的预处理步骤,如确定 RPFs 的 5’ - 读端与 A 位点之间的读长偏移,因为这一过程缺乏金标准,直接按位置和长度处理所有读取数据,反而提升了整体性能。与其他工具不同,RiboTIE 在预测步骤之后构建 ORF,通过评估转录组上每个可能的密码子作为翻译起始位点(TIS)的可能性,对所有可能的 ORF 进行评分,增加了训练集并方便下游处理和基准测试。并且,RiboTIE 仅处理映射 RPF 的计数,不考虑可能引入偏差的相关信息。

在与多个常用的翻译 ORF 检测工具(如 ORFquant、Rp - Bp 等)的基准测试中,RiboTIE 表现出更高的敏感性和精确性。在评估每个工具正确识别规范编码序列(CDS)的能力时,RiboTIE 在 ROC AUC 和 PR AUC 曲线方面表现更优。以胰腺祖细胞的六个生物学重复样本为例,RiboTIE 检索到的 CDS 数量比 ORFquant 多 64.9%,对于长度小于 300bp 的小 CDS,RiboTIE 检索到的数量是 ORFquant 的 4 倍。在非规范 ORF 的检测中,RiboTIE 检索到的具有非规范起始位点的注释 CDS 数量最多,并且其预测的上游(重叠)ORFs(u (o) ORFs)比例较高,而内部 ORFs(intORFs)和下游(重叠)ORFs(d (o) ORFs)比例较低,减少了因预测这些 ORF 而产生的假阳性问题。同时,RiboTIE 调用的 lncRNA - ORFs 数量相比其他高性能工具更少,且其调用的 lncRNA - ORFs 中,低读取计数的具有较低的模型分数。

应用于人体组织样本的性能


研究人员将 RiboTIE 应用于人体组织样本,包括 73 个胎儿和成人的大脑样本以及 15 个髓母细胞瘤患者组织样本。这些样本的数据质量存在差异,部分样本的总读框内读取占有率较低。在正常大脑样本中,RiboTIE 共进行了 63,786 次独特的 ORF 调用,其中注释 CDS 占 47.0%,ncORFs 占 14.7%,与之前使用 RibORF 软件对相同数据集的报告相比,性能有显著提升。RiboTIE 检测到 36 个具有非 AUG 起始密码子的 CDS,而 RibORF 仅检测到 9 个。对于 ncORFs,RiboTIE 的调用主要以 AUG 起始密码子为主,与 RibORF 返回的大多为非规范起始密码子不同。

进一步分析发现,在 73 个评估的大脑样本中,读框内读取占有率与 RiboTIE 的性能之间仅存在轻微且不显著的相关性(Pearson r = 0.227,p = 0.054),而编码序列内映射读取的数量与 RiboTIE 的性能之间存在较强的相关性(Pearson r = 0.804,p = 1.1e - 17),当仅考虑 TISs 周围(±30nt)的读取数量时,相关性更强(Pearson r = 0.903,p = 7.5e - 28),这表明 RiboTIE 能够有效利用因技术和样本处理等原因出现的读框外读取来确定翻译的 ORF。

在髓母细胞瘤研究中的应用


研究人员对髓母细胞瘤细胞系进行了研究,用二甲基亚砜(DMSO)或 HHT 处理细胞系后进行核糖体图谱分析。结果发现,与 DMSO 处理相比,15 对 HHT 处理的细胞系中有 12 对检索到的 CDS 数量增加,并且考虑样本间读取深度的影响后,HHT 处理的细胞系性能得到改善(ANCOVA p = 4.05e - 11;DF = 1)。

为了探究 ncORFs 在髓母细胞瘤中的作用,研究人员利用 RiboTIE 对 24 个髓母细胞瘤细胞系样本进行处理,评估高(n = 16)、低(n = 8)MYC 表达样本之间差异表达的 ncORFs。共选择了 3,638 个 ncORFs 进行评估,发现 201 个 ncORFs 的翻译表达存在显著改变(Fold Change >2;padj <0.05)。这些 ncORFs 所在的转录本与髓母细胞瘤的生物学特征相关,富集了神经系统中已知的组织富集表达基因和分化相关基因。研究人员还结合已发表的 RNAseq 数据,进一步表征了 RiboTIE 识别的 ncORFs 的差异翻译丰度与 MYC 状态的关系。

研究人员将 RiboTIE 识别的 ORFs 与 TIS Transformer 预测结果相结合,验证了 22 个候选 ncORFs 在髓母细胞瘤亚型之间存在差异翻译,这些 ncORF 的翻译丰度能够正确地将髓母细胞瘤细胞系按疾病亚型进行聚类。整体上,大多数 ncORF - CDS 对呈正相关,但也发现了一些负相关的对,这些负相关对在低 MYC 和高 MYC 表达的细胞系中分别有 38 对和 25 对(Spearman ρ < - 0.71,p < 0.05;Spearman ρ < - 0.50,p < 0.05),并且其中 9 对在低和高 MYC 表达的细胞系之间呈负相关,部分基因在髓母细胞瘤患者肿瘤中表现出转录后调控。

研究人员通过对三个 MYC 高和三个 MYC 低的髓母细胞瘤细胞系进行深度胰蛋白酶质谱分析,为 RiboTIE 提名的 ncORFs 提供正交证据。共发现 44 个支持 ncORFs 或未注释的 CDS N 端延伸的肽段,质谱主要在 RiboTIE 调用的 N 端延伸处返回匹配结果,并且观察到一些与 MYC 高或低状态相关的肽段,突出了 ncORFs 在髓母细胞瘤中与相关规范 CDS 表现出不同疾病模式的潜力。

研究结论与讨论


RiboTIE 作为一种创新的机器学习工具,在从核糖体图谱指纹中检测 ORF 方面展现出显著优势。它结合了该领域的最新进展,遵循 “最佳实践”,在准确性、稳健性、模块化和功能透明性方面表现出色,在检测翻译的 ORF 时性能优于现有工具。RiboTIE 不进行核糖体 P 位点的预处理,避免了可能引入的偏差,并且在低读框内读取百分比的数据上也能表现良好。同时,RiboTIE 在不同测序深度的样本中能够保持稳定的 ORF 类型分布,即使在低覆盖度的情况下,也能稳定地检测翻译的 ORF。

然而,RiboTIE 也存在一些局限性。在处理因内部外显子剪接产生的转录本异构体时,其确定翻译 TISs 的方法可能对模型解析能力产生影响,此时可能需要结合 RNA - seq 数据或评估核糖体读取在整个 ORF 上的均匀性来辅助分析。此外,RiboTIE 对 GPU 硬件的依赖限制了其广泛应用。未来,研究人员计划开发额外的后处理方法,用于对共享基因组区域的转录本上的 ORF 调用进行分组和解析,以标记可能的假阳性,并优化低读取计数的 ORF 类型的预测阈值,进一步提升 RiboTIE 的性能。

总体而言,RiboTIE 为研究人员提供了一种强大的工具,通过广泛应用于 166 个不同测序深度的数据集,展示了其处理低读框内读取占有率数据的独特能力,并为儿童髓母细胞瘤的疾病亚型研究提供了更深入的生物学见解。RiboTIE 为翻译起始位点分析、非规范 ORF 检测和翻译 ORF 的表达谱分析开辟了新途径,有望推动蛋白质合成和疾病相关研究取得更多突破。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号