编辑推荐:
在遗传学研究中,准确预测 DNA 变异对基因调控的影响至关重要。研究人员开展了从 DNA 序列预测 RNA-seq 覆盖度的研究。他们开发的 Borzoi 模型能精准预测,还可解析调控机制,这有助于理解遗传关联影响性状的机制,推动遗传学发展。
在生命科学的广阔领域中,遗传学一直致力于解开基因调控的神秘面纱。长久以来,科研人员渴望准确预测人类基因组中 30 亿个核苷酸的改变对基因调控活动的影响,这一探索对于解读致病突变、确定全基因组关联研究(GWAS)中功能变异的优先级,甚至改进 GWAS 本身都有着至关重要的意义。然而,目前的研究面临诸多挑战。虽然基于 DNA 序列训练的机器学习模型在表征调控语法和解释遗传变异影响方面取得了一定成果,但它们大多聚焦于特定的测序分析,比如转录因子染色质免疫沉淀测序(ChIP-seq)、DNase I 超敏感位点测序(DNase-seq)和转座酶可及染色质测序(ATAC-seq)等,这些分析的测量活动与局部测序读数计数成比例,可通过相对较短的序列区域进行准确预测。但 RNA 测序(RNA-seq)却截然不同,它的读数对齐依赖于包含基因外显子和相关顺式调控元件的更大序列区域,而且其覆盖模式整合了转录、剪接、终止或多聚腺苷酸化以及 RNA 稳定性等多个基因调控层面,这使得从序列预测 RNA-seq 覆盖度成为一个极具挑战性的难题。
为了攻克这一难题,来自 Calico Life Sciences LLC 等机构的研究人员展开了深入研究。他们开发了一种名为 Borzoi 的模型,致力于从 DNA 序列中学习预测细胞类型特异性和组织特异性的 RNA-seq 覆盖度 。这一研究成果发表在《Nature Genetics》上,为基因调控研究带来了新的曙光。
研究人员在开展研究时,运用了多种关键技术方法。首先,他们收集了大量人类和小鼠的 RNA-seq 实验数据,还纳入了 Enformer 和 Basenji 模型研究的相关实验分析数据,如 FANTOM5 联盟的 CAGE 检测数据、ENCODE 和 Epigenomics Roadmap 的 DNase-seq 和 ChIP-seq 数据,以及 CATlas 的伪批量单细胞 ATAC-seq 数据等。在模型构建方面,Borzoi 模型基于 Enformer 网络架构进行了优化,通过调整序列长度和预测分辨率,运用 U-net 上采样技术等,使其更适用于 RNA-seq 预测。同时,研究人员采用多任务设置训练模型,并通过多种评估指标和方法对模型性能进行全面评估 。
下面来看具体的研究结果:
- Borzoi 准确预测 RNA-seq 及其他分析结果:尽管从 DNA 序列建模 RNA-seq 覆盖度困难重重,但 Borzoi 模型在预测外显子 - 内含子覆盖模式方面表现出色,即使是对于包含许多外显子的长基因也能达到惊人的一致性。在测试集中,使用一个模型复制品时,预测结果与 RNA-seq 覆盖度的平均皮尔逊相关系数 R 值达到 0.74,而对整个模型集合的预测进行平均后,R 值提升至 0.75。在基因水平上,预测与测量的基因水平覆盖值的平均皮尔逊 R 值为 0.87 。这表明 Borzoi 模型能够有效捕捉 RNA-seq 数据中的关键信息,为后续研究奠定了坚实基础。
- 推断组织特异性表达和异构体使用情况:基因表达是一个受多种调控步骤影响的复杂过程,Borzoi 模型在预测组织特异性基因表达方面展现出强大能力。以五个 GTEx 组织(全血、肝脏、大脑、肌肉和食道)为例,该模型能够准确预测这些组织中基因的表达覆盖情况,如对血液特异性基因 ADGRE1 的预测。此外,对于基因中常见的可变转录起始位点(TSS)和 3′非翻译区(UTR)中的可变多聚腺苷酸化(APA)现象,Borzoi 模型也能进行有效预测。计算 TSS 使用比率时,其预测结果与实验测量值、FANTOM5 TSS 使用比例以及组织特异性 TSS 使用比率倍数变化都具有较高的相关性 。在预测组织特异性 APA 时,模型预测的远端与近端多聚腺苷酸化覆盖比率与 GTEx 和 PolyADB v.3 的测量结果高度相关 。这说明 Borzoi 模型可以深入挖掘基因表达在不同组织中的特异性调控机制。
- Borzoi 识别驱动 RNA 表达的调控基序:通过对预测的 RNA-seq 覆盖统计数据应用归因方法,Borzoi 模型能够直接表征组织特异性的顺式调控转录因子(TF)基序。研究人员针对五个 GTEx 组织,选取了每个组织中相对于其他组织具有最大转录本每百万(TPM)倍数变化的 1000 个基因,计算其组织特异性聚合外显子覆盖梯度。结果发现,该模型能够识别出每个组织中已知的关键调控因子,如血液中的 SPI1/B 和 IRF4/8、肝脏中的 HNF4A/G 和 HNF1A 等 。这些结果为深入理解不同组织中基因表达的调控机制提供了重要线索。
- 改进基因表达预测的上下文使用:确定远端增强子 - 基因相互作用对于细胞和组织特异性调控至关重要,Borzoi 模型在这方面也表现优异。通过计算 K562 RNA-seq 样本中聚合外显子覆盖预测的输入梯度,该模型能够突出驱动基因表达预测的调控元件。与 Enformer 模型相比,Borzoi 模型可以对距离基因更远的位点进行评分,最远可达 262kb,并且在分类增强子 - 基因相互作用时具有更高的平均精度(AUPRC)和受试者工作特征曲线下面积(AUROC) 。此外,在预测 TRIP 报告基因的表达时,Borzoi 模型基于 DNase 覆盖的预测得分与测量的表达水平具有较好的相关性 。这表明 Borzoi 模型能够更有效地利用基因组上下文信息,准确预测基因表达。
- Borzoi 优先考虑影响表达的遗传变异:准确预测遗传变异对基因表达的影响对于理解人类群体中遗传关联的调控机制至关重要。研究人员利用 Borzoi 模型评估其区分精细定位的 GTEx 表达数量性状位点(eQTLs)和匹配阴性位点的能力。结果显示,Borzoi 模型在区分 eQTLs 方面表现出色,使用 L2 评分的模型集合在区分 eQTLs 时,平均 AUROC 达到 0.794,优于 Enformer 模型 。在预测稀有和常见变异方面,Borzoi 模型与 CADD(v.1.6)评分在区分常见变异和单例变异时具有相当的判别能力,两者结合使用可提高准确性 。这为遗传变异的功能研究提供了有力的工具。
- 功能性多聚腺苷酸化变异解释:许多疾病变异会影响 3′ mRNA 加工,Borzoi 模型在这方面也有重要发现。通过对 3′ UTR 中预测的覆盖度应用归因方法,研究人员发现了与多聚腺苷酸化调控相关的基序,如 CFIm、CPSF、CstF 等 。在区分精细定位的 3′ QTLs(paQTLs)和匹配阴性位点时,Borzoi 模型的预测准确性随着与最近 PAS 距离的减小而提高,且在较长距离上表现优于 APARENT2 模型 。这对于理解 mRNA 加工过程中的调控机制以及相关疾病的发病机制具有重要意义。
- 功能性剪接变异解释:研究人员针对 RNA 剪接定义了基于预测外显子与内含子覆盖比的剪接中心归因分数,发现了已知的剪接调控基序 。在分类精细定位的剪接 QTLs(sQTLs)和匹配阴性位点时,Pangolin 模型在远距离变异分类上有一定优势,而 Borzoi 模型在靠近剪接位点的变异分类上表现更好,且两者的平均排名预测优于单独模型 。这为深入研究 RNA 剪接调控提供了新的视角。
- 内含子多聚腺苷酸化变异解释:候选多聚腺苷酸化位点常出现在内含子中,导致 PAS 与周围剪接位点之间的竞争。Borzoi 模型能够较好地预测精细定位的因果内含子 paQTLs,平均 AUPRC 达到 0.725 。这表明该模型可以捕捉到这种复杂的调控过程,为相关研究提供了重要依据。
综合来看,Borzoi 模型为从 DNA 序列预测 RNA-seq 覆盖度提供了创新的解决方案,在多个基因调控层面展现出强大的分析能力。它不仅能够准确预测 RNA-seq 覆盖度,还能深入解析组织特异性的基因调控机制,为理解遗传变异对基因调控过程的影响提供了有力工具。然而,该模型也存在一些局限性,如在预测组织特异性剪接事件和识别与 mRNA 半衰期相关的序列元件方面还有待改进 。未来,研究人员计划通过添加更多基于 RNA-seq 的训练数据、纳入更多哺乳动物的 RNA-seq 数据以及引入新的高效注意力模块等方式,进一步提升模型性能。这一研究成果为基因调控领域的发展注入了新的活力,有望推动相关疾病研究和精准医学的进步。