编辑推荐:
在基因转录调控研究中,为探究增强子与基因的关系,科罗拉多大学博尔德分校研究人员分析大量人类样本的新生 RNA 转录数据,识别出双向转录区域及组织特异性转录关联对,构建 DBNascent 数据库,为基因调控研究提供资源。
在生命科学的基因研究领域,基因转录如同一场精密的交响乐,而其中的调控机制则是指挥这场演奏的关键。增强子和启动子等调控区域,就像乐团中的不同乐器组,掌控着基因转录的节奏。不过,长久以来,这些区域存在着诸多谜团。一方面,非编码双向转录现象广泛存在,产生的 RNA 通常不稳定,但其具体功能和作用机制却知之甚少;另一方面,虽然有多种方法可识别双向转录区域,但这些区域大多仍未得到有效注释,使得我们对基因调控的理解犹如雾里看花。
为了驱散这重重迷雾,来自美国科罗拉多大学博尔德分校(University of Colorado Boulder)的研究人员踏上了探索之旅。他们围绕新生 RNA 转录数据展开深入研究,期望能揭示组织特异性增强子与基因之间的联系,这一探索成果意义重大,若成功,将为基因调控领域打开新的大门,帮助我们更深入地理解生命过程中基因表达的精细调控,也为后续相关疾病的研究和治疗提供理论基础。最终,他们的研究成果发表在《BMC Genomics》杂志上。
在这场科研探索中,研究人员运用了多种关键技术方法。首先,他们从 Gene Expression Omnibus(GEO)和 NIH Sequence Read Archive(SRA)收集了大量已发表的新生转录数据集,构建起庞大的数据资源库。接着,使用标准化的 Nextflow 管道对原始数据进行处理,包括数据映射、质量控制等步骤。在识别双向转录区域时,结合 Tfit 和 dREG 两种方法,综合它们的优势来精准定位。此外,通过计算基因与双向转录区域之间的相关性,寻找潜在的组织特异性增强子 - 基因对,并利用多种数据库和分析方法对结果进行评估验证。
下面让我们一同深入了解他们的研究结果:
- 构建新生 RNA 数据资源库:研究人员精心收集了来自 20 个生物体的 3638 个原始样本,经处理后得到 2880 个生物学样本。对这些样本进行严格的质量控制(QC),基于读取深度和复杂性等指标开发了 QC 分类指标,多数分析使用 QC 评分为 1 - 3 的高质量样本。其中,大部分样本来自人类或小鼠细胞,且主要来源于细胞系或培养的原代细胞。主成分分析表明,数据差异主要反映了生物学信号,而非技术变异。
- 双向转录区域特征分析:结合 Tfit 和 dREG 两种方法,在人类和小鼠数据集中分别识别出 847521 个和 680735 个独特的双向转录区域。这些区域普遍比基因短,多与非编码区域重叠,部分与外显子、内含子等重叠。与已有的候选顺式调控元件(cCRE)数据库对比发现,DBNascent 数据库覆盖了部分已注释的调控元件,且双向转录区域与 EnhancerAtlas 区域重叠较多。同时,研究发现双向转录区域在物种间的保守性存在差异,部分区域在人和小鼠间可保守转录。
- 转录的组织特异性研究:分析不同转录区域在不同细胞类型和组织中的转录水平,发现启动子双向转录区域转录水平较高,非启动子双向转录区域(多为增强子)转录水平较低且更具组织特异性。通过 SPECS 评分和 ESS 评分等分析,进一步证实非启动子双向转录区域是最具组织特异性的转录本。
- 确定双向转录区域与基因的关联对:通过计算基因与双向转录区域的相关性,在 11 个人类组织样本中识别出大量显著相关的对。这些对与已知的增强子 - 基因链接对比,发现 DBNascent 对能恢复更多已知对,且在匹配组织中恢复效果更好。通过随机化策略和调整相关性显著性的 p 值阈值,减少了假阳性对和虚假相关性。结合 RNA PolII ChIA - PET 数据后发现,多数 DBNascent 对得到支持,且同一组织内的重叠效果更好。
研究结论表明,研究人员成功构建了 DBNascent 数据库,该数据库包含大量新生测序数据及识别出的双向转录区域,为后续研究提供了宝贵资源。同时,证实增强子相关转录本比注释的 lncRNAs 更具组织特异性,一个基因可能由不同组织中的不同增强子调控。此外,基因 - 双向转录区域的关联对有助于构建基因调控网络,为识别疾病相关非编码变异的候选基因靶点提供了新途径。不过,研究也存在一些局限性,如双向转录区域转录水平低且组织特异性强,在低覆盖度数据集中易被忽略,样本数量少会导致更多虚假相关性等。但总体而言,这项研究为基因调控领域的发展做出了重要贡献,为后续深入研究基因表达调控机制奠定了坚实基础,也为相关疾病的研究和治疗提供了新的方向和思路 。