DirectRM:基于纳米孔直接RNA测序实现多种RNA修饰景观与互作关系的整合检测

《Nature Communications》:DirectRM: integrated detection of landscape and crosstalk between multiple RNA modifications using direct RNA sequencing

【字体: 时间:2025年10月28日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对现有RNA修饰检测技术无法同时分析多种修饰类型且存在技术偏差的瓶颈,开发了DirectRM——一种基于纳米孔直接RNA测序的整合检测框架。该研究通过两阶段分析流程(先筛选候选修饰kmer,再通过注意力机制神经网络精确定位),实现了ac4C、m1A、m5C、m7G、m6A和Ψ六种重要RNA修饰的同步检测。实验验证表明,DirectRM在敏感度、精确度和鲁棒性方面均优于现有工具,并首次在转录本和分子水平揭示了修饰间的空间关联与相互调控关系,为探索表观转录组复杂性提供了强大工具。

  
在遗传中心法则中,RNA曾长期被视为单纯的遗传信息传递者。然而,随着表观转录组学(epitranscriptomics)的快速发展,科学家们发现RNA分子上存在着复杂而动态的化学修饰层,这些修饰如同给RNA戴上了各式各样的"装饰品",深刻影响着RNA的稳定性、翻译效率、剪接降解以及RNA-蛋白质相互作用等关键生物学过程,进而调控包括癌症、神经退行性疾病和代谢综合征在内的多种疾病的发生发展。
绘制RNA修饰图谱并对其进行精确定量,是理解这些修饰功能及其相互作用的关键。过去几十年,基于下一代测序(NGS)平台的技术(如抗体免疫共沉淀)虽被广泛使用,但每种修饰类型都需要独特的富集方法,无法同时描绘多种修饰的景观。此外,独立的实验往往捕获不一致的表观转录组图像,且不同检测方法的输出结果格式各异,难以直接比较和整合分析,这严重阻碍了我们对修饰间潜在"对话"(crosstalk)的研究。
一些计算工具尝试整合不同技术产生的表观转录组数据,通过集成预测模型(如MultiRM)对多种RNA修饰进行计算机模拟检测。然而,这些工具主要利用原始序列或基因组特征进行推断,这些特征在不同细胞系或条件下是恒定的,因此无法模拟RNA修饰的动态特性。更重要的是,短读长NGS测序严重限制了识别异构体特异性修饰景观的能力。
牛津纳米孔技术(ONT)推出的直接RNA测序方法,能够实时、长读长、单分子地直接对RNA进行测序。它通过解卷积单个分子穿过纳米孔传感器时产生的电信号进行测序。沿着分子的修饰会引发电信号的显著变化,这种直接读取天然RNA的能力允许同时检测每个分子上所有潜在的修饰。
目前,已有一些工具可以从纳米孔测序数据中推断RNA修饰,例如检测m6A的m6Anet、nanom6A和DENA,检测假尿苷(Ψ)的nanoPsu和nanoMUD,以及用于从头检测的ELIGOS和Tombo,还有尝试检测多种修饰的TandemMod。然而,这些工具存在明显局限:要么只专注于单一类型的RNA修饰(主要是m6A),要么只报告非常规碱基而不指定其修饰类型;有些工具的分析局限于特定序列上下文(如m6Anet和DENA只检测DRACH基序上的m6A事件,留下了非DRACH m6A研究的巨大空白);此外,这些工具使用的特征、算法、标签来源、训练样本和逻辑各不相同,导致结果高度依赖于特定方法,难以直接比较或整合。更重要的是,纳米孔传感器一次可容纳5或9个核苷酸,一个修饰碱基的存在会影响其邻近碱基的信号。而大多数现有工具只考虑单一修饰类型,其结果容易受到邻近修饰的影响而产生假阳性或假阴性。TandemMod虽然旨在检测多种修饰,但由于其对每个修饰类别应用独立模型,并且使用包含非自然修饰模式(如连续m6A或m5C)的体外转录(IVT)RNA进行训练,仍然存在假阳性问题。
这些挑战和局限凸显了对更全面、标准化检测框架的迫切需求。为此,研究人员开发了DirectRM,它能够利用纳米孔直接RNA测序技术,在天然RNA中同时检测六种最丰富的RNA修饰:N4-乙酰胞苷(ac4C)、1-甲基腺苷(m1A)、5-甲基胞苷(m5C)、N7-甲基鸟苷(m7G)、m6A和假尿苷(Ψ)。
关键技术方法
本研究的关键技术方法包括:1)利用牛津纳米孔技术(ONT)的直接RNA测序(对天然RNA进行测序);2)从天然人类RNA样本(人源HepAD38和MT-4细胞系以及HTLV-1病毒RNA)的纳米孔数据中提取分子水平kmer特征(包括碱基识别错误特征和多种信号特征);3)使用从准确的NGS实验(如MeRIP-seq、PA-Ψ-seq等)获得的细胞特异性修饰位点作为金标准标签来训练模型;4)采用两阶段分析流程,包括基于二元分类器的候选修饰kmer筛选和基于注意力机制神经网络的多标记学习模型进行特异性修饰鉴定与定位;5)通过位点定向突变和MeRIP-qPCR等技术对病毒RNA(HTLV-1)上的高置信度修饰位点进行实验验证。
严格标记实现高精度神经网络的从头修饰检测
研究首先进行了从头修饰检测,即识别非常规kmer而不指定其修饰类型。为了精确标注kmer用于模型训练,研究人员评估了三种指标:观察电流强度均值与预期水平偏差的Wilcoxon检验(标记A)、存在碱基识别错误(标记B)以及两者交集(标记C,更严格)。通过主成分分析(PCA)发现,Wilcoxon检验能更好地区分非常规kmer。模型性能评估表明,基于标记A和C训练的模型(AUROC分别为0.954和0.949)显著优于基于标记B的模型(AUROC=0.722)。在体外表观转录组(IVET)数据集上的进一步测试显示,虽然标记A模型在验证集上AUROC略高,但标记C模型在IVET数据集上表现出更优的F1-score(平均0.7 vs 0.639),因此最终选择更严格的标记C(Wilcoxon检验p值<0.01且存在碱基识别错误)用于从头模型训练。
研究还评估了覆盖度对位点水平修饰检测的影响。发现提高覆盖度会在召回率和精确度之间产生权衡。F1分数在覆盖度达到10x后进入平台期,因此建议使用10x覆盖度进行位点水平修饰概率和修饰水平的估计,这在保证检测性能的同时兼顾了低丰度转录本的检测。与已发表的从头检测模型(Tombo和ELIGOS)在IVET数据集上的基准比较表明,本研究基于深度学习的模型在处理更复杂的RNA004化学数据时表现出更大潜力。
利用NGS衍生的天然修饰标签训练修饰推断模型
在识别非常规kmer后,下一步是确定修饰类型和精确位置。与使用可能引入生物伪影的IVT数据不同,本研究利用金标准NGS衍生的修饰位点生成训练标签,以保留真实的表观转录组复杂性。定量分析显示,约90%的标准IVT 9-mer中的修饰频率超过了NGS技术观察到的自然水平,并且修饰经常共同出现,具有独特的组合修饰信号特征,这要求模型必须考虑修饰间的相互作用。
为了确定修饰身份并捕获修饰间的相互作用,研究人员采用了基于注意力的多实例多标记学习框架。最终结构包含六个并行子模型(每个针对一种修饰类别),每个子模型配备一个注意力机制来确定kmer"包"中最可能的修饰位置、一个基于LSTM的特征提取器和一个提供目标类别修饰概率的全连接分类器。该模型通过多标记学习算法进行集成优化,以捕获修饰间的依赖关系和影响。在RNA002和RNA004数据集上的评估显示了最先进的性能:每个类别的二元AUROC均大于0.95,多标记精确度-召回曲线下面积(PRAUC)为0.92。此外,该模型成功复现了RNA修饰的基本生物学模式,如检测到的m6A位点显著富集在编码序列(CDS)末端区域并精确识别了保守的DRACH基序。
整合模型相较于独立模型实现更好的修饰检测
系统比较表明,整合多标记模型在分子水平上显著提升了性能,所有修饰类别的AUROC分数比独立优化的二元分类器提高了0.06-0.13。在位点水平评估中,整合模型生成的修饰谱与NGS金标准显示出更强的一致性,表明其能更好地缓解邻近修饰诱导的假阳性,并更准确地复现表观转录组模式。相比之下,独立识别数据集中有大量位点(43%)在9 bp上下游内有其他修饰位点,远高于收集的NGS集合中的比例(20%),这更可能是由邻近非常规信号的影响而非真实阳性所致。在高纯度IVET数据集上的验证进一步显示,整合多标记模型的错误率(约5%)比独立二元分类器(约20%)降低了四倍。这些证据共同表明,独立优化会引入系统性检测伪影,而端到端的多标记模型能在分子、位点和实验验证水平上保持生物学保真度。
DirectRM框架概述
经过上述实验、比较和优化,最终形成了DirectRM框架。其整体流程包括:从天然RNA样本中提取分子水平kmer特征;训练二元从头检测模型以识别潜在修饰kmer;使用整合多标记模型推断候选修饰kmer的修饰类别和位置。该整合模型由六个独立子模型组成,每个子模型包含特征提取器、注意力机制和全连接层,使用从配对NGS实验获得的细胞特异性金标准标签进行训练。优化后的模型输出每个kmer位置的注意力分数和每个类别的修饰概率,修饰概率大于0.5的类别被认为存在于kmer区域,确切的修饰位置被分配给具有最高注意力分数的核苷酸。
DirectRM性能基准比较
为了严格评估DirectRM的性能,研究人员针对特定修饰类别独立训练的已发表修饰检测工具进行了系统基准测试。在五个不同人类细胞系和一个小鼠细胞系的样本上,对m6A检测工具(m6Anet、DENA、nanom6A)和Ψ检测工具(nanoMUD、nanoPsu)进行了评估。使用细胞相关NGS位点验证工具结果。对于m6A检测,DirectRM在所有测试细胞系中 consistently 实现了最高的验证率(例如在A549样本中高达46.18%),显著优于其他工具。对于Ψ修饰,由于细胞特异性数据集有限,采用了从可用数据集中汇总的 confidently 检测到的单碱基分辨率位点进行基准测试,DirectRM同样表现出显著优势。重要的是,DirectRM独特地实现了对非DRACH基序的检测,这是比较工具所不具备的能力。
在MT-4细胞系上验证DirectRM的泛化能力
为了证明模型的泛化能力,研究人员在MT-4细胞系(使用RNA004化学测序)上重复了实验。使用与HepAD38训练样本相同的策略准备独立测试数据集。分子水平性能评估显示,所有类别的AUROC分数均大于0.85,表明模型具有出色的泛化能力。此外,对另外两种修饰类型(A-to-I和hm5C)位点的测试表明,从头检测模型能准确识别这些位点,而多标记模型为这两种非训练修饰给出的修饰概率中位数约为0.25,显示出优异的特异性。将DirectRM识别的位点与金标准NGS技术收集的位点进行验证,发现相当大比例的位点(如m6A和Ψ)可被NGS技术验证。同时,DirectRM还报告了大量被先前NGS实验忽略的位点,并成功识别了包括lncRNA、rRNA和snoRNA在内的多种RNA类型上的9012个修饰位点,扩展了修饰检测的范围。对不同细胞系(HepAD38 vs MT-4)和生物学重复(MT-4重复1 vs 重复2)的修饰谱比较揭示了RNA修饰的高度动态特征。细胞系间比较显示修饰强度存在显著异质性(斯皮尔曼相关系数p=0.62),而不同MT-4重复间的位点修饰率相对稳定。
位点定向突变验证HTLV-1病毒RNA上的修饰
DirectRM还被应用于研究HTLV-1病毒RNA的修饰景观。在病毒RNA上的测试表明,DirectRM取得了与人类细胞相当的性能。通过MeRIP-seq实验获得候选修饰位点,验证了DirectRM提供的修饰谱。研究发现修饰主要富集在Tax和Env两个基因中,尤其是在Tax基因中最为富集。通过构建含单核苷酸替换的突变质粒并转染HEK293细胞,后续的MeRIP-qPCR分析显示,突变位点的修饰富集信号相较于野生型对应位点显著降低。DirectRM检测与实验验证之间的高度一致性,凸显了该框架在病毒RNA表观转录组研究中的可靠性。
分子水平研究揭示修饰间的潜在关联
先前研究观察到两个修饰间的基因组距离显著短于随机情况,表明修饰间存在潜在的聚类或正相关。本研究利用纳米孔长读长优势,在HepAD38和MT-4细胞上获得了异构体特异性表观转录组谱,并评估了修饰间的转录组距离。对于所有可能的修饰对,计算了测试修饰位点到其最近参考修饰位点的距离,并使用距离中位数来衡量两个修饰间的距离。与基因组水平类似,在不同的剪接异构体中也观察到修饰间强烈的聚类特征。大多数修饰之间的距离显著近于随机。
考虑到修饰的共现特征,进一步分析探索了修饰间的潜在相互作用。首先,将修饰位点分为三组:有修饰邻居(距离<100 bp)、无修饰邻居以及作为该转录本上唯一检测到位点(NA)。有趣的是,发现有修饰邻居的位点其修饰率显著低于其他两组。研究人员假设,不同的修饰可能在特定生物过程中扮演相似角色。当其他修饰存在于附近时,功能责任可以共享,从而降低需要高修饰水平来激活功能的需求。或者,修饰可能发挥相反功能(如稳定RNA或导致RNA降解),这种情况下,一种修饰的存在会影响并可能减少另一种修饰的存在,导致修饰水平降低。进一步评估显示,在100 bp范围内,与其他修饰位点的距离越长,修饰率越高,表明受其他修饰的影响越小。当距离大于100 bp时,修饰水平保持稳定,表明100 bp区域以外的修饰位点不太可能影响该位点的修饰率。
为了在分子水平验证上述假设,研究人员调查了相邻修饰位点之间的关联。对于每对相邻修饰位点(距离小于100 bp),计算了查询位置存在修饰A的概率P(查询=A),以及在同一条分子上给定主题位置发生修饰B的条件下查询位置存在修饰A的条件概率P(查询=A|主题=B)。结果表明,对于大多数相邻修饰位点对,一种修饰的存在会减少另一种修饰在同一条分子上的存在概率(P(查询=A) > P(查询=A|主题=B))。这解释了先前的观察:有修饰邻居的位点显示出显著低于无修饰邻居位点的修饰占据率。
为了推断这些关联修饰的功能意义,研究人员分析了它们与RNA结合蛋白的相互作用,并利用SHAP分析量化了它们对转录水平的影响。文章列举了HepAD38细胞系中负相关和正相关的例子。例如,位于YTHDF2蛋白结合区域的一个m6A和一个m5C位点,以及位于IGF2BP3蛋白结合区域的一个m7G和一个m6A位点,均显示为负相关。SHAP分析表明,这些修饰对转录水平有相反贡献,这与它们通过相同蛋白质发挥相反功能(如促进降解 vs 稳定RNA)的已知作用一致。此外,也发现了正相关的例子,如在YBX1和IGF2BP蛋白家族共结合区域的一个m6A和一个m5C位点,当另一种修饰在同一读段上发生时,m6A或m5C存在的可能性显著增加,推测这两种修饰可能需要协作发挥功能。在HepAD38细胞系中,共识别出705个负相关和155个正相关案例,涉及56种RNA结合蛋白的216种异构体;在MT-4细胞系中,识别出489个负相关和123个正相关案例,涉及59种RNA结合蛋白的216种异构体。
研究结论与意义
本研究成功开发了DirectRM框架,实现了对六种丰富RNA修饰的整合检测,具有高精度、敏感性、特异性、可重复性和泛化能力。该研究的关键优势在于:1)使用天然RNA样本和NGS衍生的金标准标签进行训练,更好地代表了RNA修饰的生物学复杂性;2)采用整合多标记学习框架,有效捕获修饰间依赖关系并解卷积复杂的修饰信号;3)系统性能评估表明其优于现有的独立检测工具。
通过应用DirectRM,研究揭示了RNA修饰在不同细胞系和病毒RNA中的动态特性和特异性景观,并首次在分子水平深入揭示了修饰间的空间关联和相互调控模式。研究发现,在大多数情况下,相邻修饰在同一条分子上的存在会相互抑制,从而影响修饰率和最终的RNA命运或水平。这些发现为理解表观转录组的复杂调控网络提供了新的视角。
尽管当前分析聚焦于六种研究较充分的修饰,但DirectRM框架为未来纳入更多修饰类型奠定了基础。同时,对修饰串扰的分析仍受限制,例如仅考虑了线性距离,未来结合RNA二级结构或环状RNA形成等结构背景,将提供更全面的理解。将修饰对与RNA结合蛋白联系时,纳入蛋白质结合偏好性和额外实验数据也将增强分析的真实性和深度。总之,DirectRM为研究表观转录组复杂性和修饰间相互作用提供了强大而可靠的工具,将推动该领域的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号