
-
生物通官微
陪你抓住生命科技
跳动的脉搏
eNRSA:一种更快速、更强大的新生转录组分析方法及其在转录调控研究中的应用
【字体: 大 中 小 】 时间:2025年07月06日 来源:GigaScience 11.8
编辑推荐:
研究人员针对现有新生转录组分析工具NRSA在计算效率、适用范围和功能上的局限性,开发了增强版eNRSA。该工具通过自适应选择主要转录本、支持复杂实验设计、识别ATSS/ATTS和转录通读事件等创新功能,将分析速度提升20倍的同时显著降低内存消耗。这项发表于《GigaScience》的研究为揭示基因表达调控机制提供了更强大的分析工具,特别适用于研究MYC等关键转录因子介导的核糖体生物合成等通路。
基因表达调控是生命活动的核心过程,从转录起始、暂停、延伸到终止的每个环节都受到精密调控。近年来,新生RNA测序技术(GRO-seq/PRO-seq等)的发展使科学家能够捕捉RNA聚合酶II(Pol II)在基因组上的实时活动,为研究基因调控提供了前所未有的时间分辨率。然而,现有的分析工具如NRSA存在明显局限:计算效率低下、仅支持简单实验设计、适用范围受限,且无法全面解析选择性转录起始位点(ATSS)和终止位点(ATTS)等重要调控事件。这些问题严重制约了科学家对复杂生理病理过程中转录动态的深入理解。
针对这些挑战,范德堡大学医学院的研究团队开发了增强版分析工具eNRSA。这项发表在《GigaScience》的研究通过多项技术创新,显著提升了新生转录组分析的深度和广度。研究团队采用Python重构算法流程,结合自适应转录本选择策略和流式处理方法,使工具运行速度提升20倍的同时内存消耗降至原先的1/8。更重要的是,eNRSA首次实现了对ATSS、ATTS和转录通读事件的系统检测,为解析基因表达的精细调控开辟了新途径。
关键技术方法包括:1)基于Cochran-Mantel-Haenszel检验的ATSS/ATTS检测算法;2)50kb下游区域读长计数的转录通读量化方法;3)整合PyDESeq2的复杂实验设计分析框架;4)HOMER增强子识别流程。分析数据来源于GEO数据库的多组PRO-seq/mNET-seq数据集,涵盖MYC抑制、VEGF刺激等多种处理条件。
研究结果首先体现在计算性能的突破上。如图5所示,处理3.87亿条读长时,eNRSA仅需0.51小时和4.78GB内存,而NRSA需要10.51小时和139.2GB内存。

在生物学发现方面,eNRSA成功解决了NRSA因忽略批次效应导致的假阴性问题。如图3所示,在分析MYC抑制(dTAG47处理)的PRO-seq数据时,eNRSA检测到841个差异表达基因,显著多于NRSA的67个。这些基因富集在核糖体生物合成(P=1.2×10-12)和MYC靶通路等关键调控网络。

特别值得注意的是,eNRSA开创性地实现了对转录变异的系统检测。如图4所示,在G401和Ramos细胞系比较中,鉴定到1,405个ATSS事件(75%被RNA-seq验证)和905个ATTS事件(81%验证)。其中SCP2基因表现出典型的条件特异性TSS切换,产生编码不同功能蛋白的转录亚型。

在转录终止调控方面,eNRSA分析OmoMYC表达的G401细胞发现217个基因出现转录通读减少,160个基因通读增加。这一发现与mNET-seq数据中CPSF73敲低导致的通读增加现象相互印证,证实了工具在解析转录终止缺陷方面的可靠性。
该研究的创新价值主要体现在三个方面:首先,eNRSA通过自适应转录本选择策略,摆脱了预先定义基因结构的限制,使其可应用于任何已知基因组的物种;其次,支持多因素实验设计的功能使其能够校正批次效应等混杂因素,显著提高差异分析的准确性;最后,对ATSS、ATTS和转录通读的检测能力为研究基因表达调控提供了全新维度。
正如作者在讨论部分指出的,eNRSA的未来发展可能聚焦于两个方向:一是整合ATAC-seq等表观基因组数据,将Pol II动态与染色质状态变化相关联;二是扩展至单细胞新生转录组分析,以解析细胞异质性对转录调控的影响。这些进展将进一步完善人们对基因表达调控网络的理解,为疾病机制研究和治疗靶点发现提供更强大的分析工具。
生物通微信公众号
知名企业招聘