SLUR(M)-py:基于SLURM的高性能并行计算平台助力三维基因组与表观遗传学多组学数据分析

【字体: 时间:2025年10月05日 来源:Epigenomics 2.6

编辑推荐:

  本文创新性地开发了SLUR(M)-py(基于SLURM的Python并行化分析流程),该工具整合了高性能计算(HPC)与多组学(Multi-omics)数据分析能力,可高效处理全基因组测序(WGS)、染色质免疫沉淀测序(ChIP-seq)、转座酶可及染色质测序(ATAC-seq)及染色质构象捕获(Hi-C)数据。其通过SLURM任务调度实现自动化并行处理,大幅提升分析速度与数据重现性,为表观遗传学(Epigenetics)和三维基因组学研究提供了一体化、物种无关的可靠解决方案。

  

ABSTRACT

表观遗传学研究已进入多维度时代,研究者从染色质结构、核小体状态和表观遗传修饰等多个层面探索细胞功能,产生了大量复杂的三维基因组与表观遗传多组学数据。为应对这一趋势,生物信息学领域亟需能够利用高性能计算(HPC)和并行化技术快速处理数据的工具。本文据此开发了SLUR(M)-py,这是一个基于Python的计算平台,利用Simple Linux Utility for Resource Management(SLURM)系统处理测序数据。SLUR(M)-py具备多组学分析能力,可自动化调用SLURM以处理来自染色质特性实验的双端测序数据,包括全基因组测序(WGS)、ChIP-seq、ATAC-seq和Hi-C,从而消除了对多个独立分析流程的依赖。

1. 引言

细胞核内染色质的形态、环化、修饰及其互作对细胞功能、发育和响应环境刺激至关重要。多种基于双端和短读长测序的技术被开发用于探测染色质的不同特性,包括三维构象、化学修饰及基因表达。例如,染色质构象捕获测序(Hi-C)和转座酶可及染色质测序(ATAC-seq)分别用于研究细胞中DNA的三维结构和可及性。此外,染色质免疫沉淀测序(ChIP-seq)检测组蛋白上的特定化学修饰,这些修饰可简单指示染色质的开放或抑制状态。这些测序策略共同提供了表观遗传学假设探索中至关重要的互补信息。因此,在表观基因组学研究中,快速整合、表征和标准化这些测序数据的能力(包括其完整处理、分析和可视化)对于理解细胞发育和外界刺激响应过程中的染色质动态至关重要。
尽管每种基因组测序策略具有特定的优势、局限和分析要求,但大多数全基因组测序分析的预期输出是相同的:双端测序数据。从生物信息学角度看,上述基因组和表观基因组分析中双端测序数据的处理是相似的,包括去除接头序列、过滤低质量读段(如含有重复或低复杂度序列的读段)、比对到参考基因组、标记和去除重复比对、过滤低质量或非唯一比对以及去除假象。因此,通过单一信息学流程共同处理这些数据可以简化下游分析、可视化和生物学解释。目前已有针对单一组学类型的软件工具和流程,例如Hi-C数据传统上通过Juicer流程分析,该流程自动化分析和生成染色质互作图谱(.hic文件),以表征染色质环和拓扑关联域(TADs)。HiCExplorer和Fan-c等基于Python且具有命令行功能的工具为研究界提供了生成Hi-C图谱、数据分析和可视化的替代流程。对于ATAC-seq和ChIP-seq等表观基因组学分析,ENCODE项目提供了实验指南和推荐软件,以生成用于高质量分析的测序文件(.bam)。此外,ATAC-graph等软件可自动化处理ATAC-seq数据、进行诊断和生成质控图。研究者通常需要将这些工具与其他生物信息学工具结合,以分析同一研究中产生的多种测序数据;虽然可行,但这种方法可能耗时、低效且容易出错。此外,使用不同流程分析同一组实验数据可能导致不一致和兼容性问题。
许多现有流程的一个特点是其“Python化”特性,即它们是用Python编写的。Python是处理表观遗传学和染色质构象实验双端测序读段的理想编程语言,因其低门槛、灵活性和开源特性。然而,这些流程仅能处理单一组学数据类型,且在多数情况下无法有效扩展至大型数据集。因此,使用这些工具处理来自人类细胞系或模型系统的大型多组学数据集(可能达到GB级别)可能会出现问题,特别是当完全解析的基因组推荐测序读段数超过十亿时。
为分析大型测序数据队列(如多个实验的Hi-C数据或多层组学数据),研究者通常依赖高性能计算(HPC)环境快速处理数据,包括流行的HPC环境如Amazon Cloud Computing和Nextflow。此外,也开发了基于Web的应用程序用于处理测序数据。最流行的开源软件工具之一,用于管理高性能计算环境的是Simple Linux Utility for Resource Management系统(SLURM)。顾名思义,SLURM简单易用且可扩展至大型计算任务。鉴于这些特性和SLURM的用户友好性,它已成为HPC中公认且不可或缺的工具,能够管理小型到大型服务器。SLURM使用户能够提交和运行并行任务,同时建立依赖关系,从而创建真正的端到端自动化流程。例如,Juicer流程利用SLURM管理、提交和运行并行进程,以从Hi-C实验生成.hic文件。此外,Hi-C-Pro流程包含并行模式,可向SLURM提交任务以创建和运行并行生物信息学任务。据我们所知,目前尚无其他已发表的HPC启用流程用于处理和分析大多数其他染色质特性实验的测序数据,如全基因组测序、ChIP-seq或ATAC-seq。
为填补这一空白,我们结合Python的可访问性与SLURM环境的实用性和可扩展性,为表观基因组学界提供了一个灵活的分析大型(GB级别)多组学数据集的流程。我们称之为SLUR(M)-py(发音为slurpy;M不发音):这个基于Python的流程专为HPC环境设计,处理各种类型的双端测序数据(基因组学和表观基因组学)的比对、过滤和分析。该Python化流程自动生成并向SLURM提交脚本;SLURM随后调度和并行化组学数据分析的基础生物信息学过程,极大提高了常见生物信息学任务的速度(提高了8倍)。SLUR(M)-py的新颖之处在于其能够处理来自几种不同测序策略的双端测序数据,包括全基因组测序、ATAC-seq、ChIP-seq和Hi-C测序。虽然SLUR(M)-py生成质控指标和有用的图像/图表用于诊断分析和发表,但该流程还包括多种转换功能;这些特性使用户能够将本流程集成到当前实验室协议中,并利用SLUR(M)-py的输出进行进一步分析。
此处,我们使用自己的ATAC-seq和Hi-C数据以及ENCODE项目的Hi-C数据展示了SLUR(M)-py平台在分析基因组学和表观基因组学数据中的实用性。我们将SLUR(M)-py生成的输出与之前的计算机模拟努力进行比较,包括HiCExplorer和Juicer。我们显示,使用SLUR(M)-py进行分析极大提高了计算速度,超越了之前的信息学分析。此外,SLUR(M)-py产生的数据产品在定性和定量上与使用Juicer流程生成的先前输出相当。最后,我们展示了SLUR(M)-py的输出允许对病毒感染实验中染色体间接触的动态进行精细探查。这种更精细的分辨率分析揭示了这些数据中的一个新发现:病毒感染不会显著影响染色体内接触,这一点在使用其他流程时被遗漏。对我们数据的重新分析还展示了SLUR(M)-py流程中民主化的其他工具,包括染色体间接触频率分析。

2. 方法

2.1. SLUR(M)-py流程概述

SLUR(M)-py结合了当前可用的Python化和生物信息学工具的最佳部分,并为快速比对和处理测序读段以研究染色质结构动态和表观遗传学修饰提供了并行化。这些工具包括bio-Python、Pandas和Dask Dataframes、MACS2、fastp和bwa:选择这些工具是基于其速度、效率、社区熟悉度和能力。我们将这些工具组合成一个单一流程,以处理全基因组测序、ChIP-seq、ATAC-seq和Hi-C数据类型。在命令行中,SLUR(M)-py仅需要一组双端读段和一个参考文件路径(.fasta格式),该文件已通过bwa索引。与Juicer流程类似,SLUR(M)-py编码向SLURM提交脚本以有效管理流程内的并行化进程,首先在输入读段对之间并行化,然后在输入基因组之间并行化。然而,SLUR(M)-py包含了额外的脚本以快速处理与Hi-C互补的信息,如ATAC-seq数据。质控和诊断图也在提供ATAC-seq或Hi-C数据集时自动生成。
SLUR(M)-py所需的计算环境和依赖项列于托管的GitHub存储库中,可通过Python的包、依赖和环境管理器conda轻松安装。在计算集群上运行SLUR(M)-py时,不需要特定的节点类型。由SLUR(M)-py生成并提交给SLURM的脚本是节点无关的,不需要图形处理单元(gpu)来执行任务。默认情况下,SLUR(M)-py将指示SLURM将作业提交到太字节(tb)节点;但是,任何类型或组合的节点(或节点列表)可以通过向SLUR(M)-py调用传递-P参数来指定。或者,可以通过–node-list参数按名称列出特定节点。安装后,SLUR(M)-py可以在给定的项目目录中链接。此项目目录必须包含一个名为“fastqs”的子目录,该子目录保存来自测序实验的配对fastq文件(gzip压缩格式)。多个重复(即多于一对fastq文件)可以保存在此目录中。与其他流程(例如见表1)不同,SLUR(M)-py工作流可以处理多个重复(通过在命令行添加–nomerge标志)或在处理过程中将重复合并到最终输出中,这是默认行为。所有这些都解决了我们在分析(表观)基因组学数据集中遇到的挑战,并作为对当前可用分析流程的改进。
开始运行时,SLUR(M)-py中的比对脚本(./SLURPY/slurm.py)需要1)通过-r参数设置的.fasta格式的参考文件路径,以及2)fastqs目录中存在gzip压缩的fastq文件(fastq.gz)。默认情况下,SLUR(M)-py期望双端读段代表来自Hi-C实验的测序材料。可以通过向slurm.py传递额外的标志–wgs、–atac-seq或控制.bam文件的路径(通过-c)来修改此行为,分别启动全基因组测序、ATAC-seq或ChIP-seq数据的处理。命令行选项和修改的完整列表列于相关的SLUR(M)-py GitHub上或通过帮助菜单(-h)可见。传递命令行参数后,使用fastq预处理软件fastp将输入读段对快速分割成更小的集合。通过可选的“-F”参数控制由fastp生成的每个分割的配对读段数。输入读段分割后,SLUR(M)-py脚本使用bwa mem算法进行基因组比对,包括过滤、去重和生成文件的连接;此处理在每个分割上并行进行。基本的SLUR(M)-py过程以对这些文件中的读段进行计数和删除临时文件结束。此过程的最终输出是一个基于文本的.bedpe文件,代表过滤后的双端比对。
在SLURM崩溃、节点故障或错误的情况下,SLUR(M)-py在工作流中包含一个检查点系统。此特性旨在保存流程中间步骤生成的数据,并允许在协议中的特定步骤重新启动。例如,当尝试处理Hi-C测序数据时,在使用fastp分割输入读段对之后(这可以说是SLUR(M)-py中最耗时的步骤之一),用户可能需要用bwa mem重新启动比对。这可以通过传递“-R bwa”来完成,而无需再次分割输入读段对,这将指示slurm.py脚本从比对步骤开始。在发生错误的情况下,SLUR(M)-py脚本还包含一个“checkwork.py”功能,用于识别保存在“logs”目录中的错误源。对于完全重新启动运行,如果用户希望完全擦除、重置和重新运行尝试,可以将SLUR(M)-py传递给“–restart”标志。使用SLUR(M)-py完成处理后,还包含一个“clean”功能,以删除处理过程中产生的大型中间和临时文件,然后使用gzip命令压缩最终的、大型的基于文本的文件(.bedpe格式)和其他输出。

2.2. Hi-C处理

SLUR(M)-py最初设计用于处理来自Hi-C实验的测序双端读段。鉴于Hi-C测序的底层化学和制备,这些实验中的片段需要额外的、独特的处理(与传统的、线性的、来自全基因组测序的双端读段相比)。简要来说,来自bwa mem的比对从通常的序列比对图(.sam格式)重新格式化为bed、配对末端文件(.bedpe);这些文件很容易传递给Pandas和Dask Dataframes进行进一步处理。在输入读段对的分割上,比对被过滤以选择有效和信息丰富的Hi-C接触,去除代表限制性酶切 dangling ends、重叠或映射到相同限制性片段的对,或呈现为自环/自连接事件的错误读段对。过滤后,比对按染色体(来自输入参考文件或由-G参数给出的染色体列表)分离到单独的文件中。每个染色体上,使用Pandas和Dask Dataframes分析双端读段的重复比对。SLUR(M)-py标记并去除具有相同5'基因组坐标和相同序列特征(从cigar字符串推算)的重复读段对。在此步骤中,代表Hi-C接触的每个bedpe文件中的条目按基因组位置(从左到右)排序。重复标记、去除和排序后,Hi-C接触被连接到“aligned”子目录中的一组最终bedpe文件中,代表有效的、未使用的和重复的Hi-C接触。Hi-C数据的这种倒数第二种形式可以由SLUR(M)-py转换为.mcool文件或其他文件格式,以便与Juicer(.short格式)兼容。传递来自Juicer工具的jar文件将在Hi-C处理完成后排队slurm.py命令以自动生成.hic文件。我们在本研究中对所有样本进行重新处理的Hi-C数据处理在13小时内完成,来自Vero和人类细胞系的样本平均运行时间分别为6.69和4.23小时。这些运行时间比我们使用当前已发布流程的先前运行时间更快。

2.3. ATAC-seq和其他处理

SLUR(M)-py在分析工具中的独特之处在于其能够处理其他形式的双端测序数据。为此,我们编码了–atac-seq和–wgs标志。这两个标志都将配置SLUR(M)-py运行以处理线性双端测序数据,从而改变bwa mem中的比对选项,绕过Hi-C错误检查。此外,使用–atac-seq选项时,输出文件被转换为与MACS3(MACS2的最新版本)兼容,用于识别“峰”或具有显著堆积和映射测序读段重叠的基因组位点。或者,可以将(来自SLUR(M)-py)的.bedpe文件路径或.bam文件路径在命令行传递给slurm.py(用作输入控制),用于处理ChIP-seq数据的峰调用,而不是ATAC-seq数据。我们使用此功能处理了来自ENCODE项目的22Rv1、HAP-1和HL-60细胞的三个ChIP-seq样本的原始双端数据。
为比较使用SLUR(M)-py处理ATAC-seq数据,我们使用Nextflow启用的NF-core-ATAC-seq流程处理了一个单一测试样本。虽然这些流程的数据处理、软件和架构与SLUR(M)-py非常不同,使得直接比较它们的速度困难,但两个流程都使用MACS2(或MACS3)进行峰调用。在来自A549细胞的示例ATAC-seq样本上,NF-core-ATAC-seq和SLUR(M)-py流程分别调用了近68,582和65,030个峰。在两个流程之间,这些调用产生了相似的信号轨迹和峰位置,估计有91%的重叠。此外,下游分析(使用deepTools)显示两个流程在调用峰内的片段分布相似。对来自ENCODE项目的Vero细胞系的ATAC-seq样本和HAP-1细胞的ChIP-seq样本进行了类似的分析。

2.4. ATAC-seq和Hi-C诊断图的自动化

成功完成运行后,还会生成一个诊断目录,其中包含时间戳(列出开始、结束和总运行时间)以及读段比对摘要的可视化(和.csv文件)。此外,对于ATAC-seq(和ChIP-seq实验),读段映射摘要、片段大小分布和FRiP分数也会自动计算并报告给用户在同一诊断目录中。类似地,对于Hi-C分析,有效Hi-C接触(包括染色体间和染色体内接触)的比例和其他映射/处理的读段对由SLUR(M)-py自动总结。这些诊断图有助于确定实验的成功和质量。

2.5. 运行时间分析

为测试SLUR(M)-py的运行时间效率、灵活性和保真度,我们处理了来自我们之前两项研究的Hi-C和ATAC-seq数据。Venu等人在Vero细胞中的实验包括在感染疫苗病毒后12、18和24小时采集的配对ATAC-seq和Hi-C样本。在Roth等人中,在名义实验室条件下(无扰动或病毒感染)收集了A549细胞的几个生物学重复(n=8)的ATAC-seq分析。来自人类细胞系的额外Hi-C数据从公共ENCODE项目和存储库收集,以原始fastq文件的形式,并类似地使用SLUR(M)-py流程重新处理。总共,这些先前发布的数据集为我们提供了26个ATAC-seq和22个Hi-C样本进行处理。
对于使用SLUR(M)-py处理的ATAC-seq样本,来自A549模拟研究(n=8)和Vero细胞中疫苗病毒感染实验(n=18)的样本平均运行时间分别为28和40分钟,有三个数据集花费略超过一小时将原始配对fastq.gz文件完全处理成.bedpe文件。Hi-C数据(n=22)的分析也相对较快,在所有分析的数据中在16小时内完成。Hi-C和ATAC-seq的运行时间与双端读段的数量呈线性关系。确实,SLUR(M)-py运行时间(作为输入读段对计数的函数)建模分别解释了Hi-C测序和ATAC-seq实验中运行时间变异的约80.98%和68.73%。

2.6. 比较Hi-C处理

Juicer流程和我们的SLUR(M)-py Hi-C脚本都使用SLURM管理作业并处理Hi-C数据;因此,我们想将我们的Hi-C处理策略与当前标准进行比较。在Vero Hi-C数据上运行Juicer和SLUR(M)-py Hi-C流程后,我们使用这些流程的处理结果和来自Juicer工具套件的pre命令生成了.hic文件。从视觉上看,来自Vero实验的Hi-C图谱看起来相似。比较Vero Hi-C图谱中有效Hi-C接触的计数,SLUR(M)-py流程产生的Hi-C图谱往往比Juicer产生的Hi-C图谱中保留的接触更多。平均而言,SLUR(M)-py产生的Hi-C图谱保留了2500万个更多的读段对作为有效接触;这平均占Vero Hi-C样本总读段对的3.57%。为进行额外的定量比较,使用Hi-C Spector重现性评分来量化SLUR(M)-py和Juicer处理的Hi-C图谱之间的相似性。总体而言,在SLUR(M)py和Juicer处理的Hi-C数据之间计算的Spector重现性评分在生物学上是可重现的,在感染和对照样本中(n=12)基因组中位数评分范围从0.944到0.976。在这些Hi-C样本中,大多数个体染色体的重现性评分高于0.80,每个染色体的样本中位数重现性评分均高于0.90,表明SLUR(M)-py和Juicer流程之间具有高度重现性。
接下来,我们比较了常用于Hi-C分析的下游工具生成的结果。这些包括来自Juicer工具套件的JuiceBox、HiCCUPs和Arrowhead应用程序。使用SLUR(M)-py产生的Hi-C图谱与每个应用程序兼容。总体而言,使用Juicer和SLUR(M)-py Hi-C图谱调用的环和TAD位置存在大量一致。总的来说,使用SLUR(M)-py Hi-C图谱调用了更多的环和TAD;这在染色体和样本上平均(大约)分别为17和9个。按基因组区域进一步细分,调用环和TAD数量的差异可能每100或500 kb范围从-4到4(分别针对环和TAD),但向中位数零衰减。此外,在调用环内平均(按染色体)Hi-C接触计数的聚合在SLUR(M)-py和Juicer产生的Hi-C图谱之间也相似。
为将SLUR(M)-py Hi-C处理与其他流程进行额外的直接比较,我们使用Arima Hi-C测序协议在人类A549细胞系中生成了一个新的Hi-C数据集。对超过7亿个双端读段进行了测序,并使用我们的SLUR(M)-py流程进行处理。从这些数据中,随机子采样了100,000个双端读段,并使用HiCExplorer、Juicer和SLUR(M)-py重新处理。这样做是为了快速处理读段,将它们映射到人类T2T参考基因组,并直接比较它们在所有三个流程中按读段名称处理成Hi-C接触的情况。在可能的情况下,在所有三个流程的调用中使用了类似的参数,如映射质量分数(≥30)。在Juicer、HiCExplorer和SLUR(M)-py中,100,000个读段对中有83,369个被至少一个流程保留为有效Hi-C接触。所有三个流程(比对、处理和过滤后)保留为有效Hi-C接触的读段对的重叠百分比为69.47%。检查代码库后,我们推测观察到的Hi-C接触差异是由以下之一引起的:1)映射方法的差异(特别是bwa mem比对器中使用的选项),2)映射过程中引入的随机性(特别是没有传递给bwa的随机种子生成器),3)保留/处理嵌合单体(如前所述),4)重复标记和处理,以及5)处理映射到相同DNA限制性片段(由限制性位点和酶切定义)的读段对。这些因素的综合影响可能导致相同数据由不同流程处理时结果存在巨大差异,并可能扩展到其他Hi-C数据处理器。此分析显示,HiCExplorer的有效Hi-C接触数(处理后)最少,并且对“有效”Hi-C接触的定义最保守。默认情况下,与HiCExplorer相比,SLUR(M)-py在分析中保留更多的读段对(如Juicer,那些映射几乎线性的染色体内接触)。因此,我们包含了一个额外的预设,可以传递给SLUR(M)-py,以便在过滤Hi-C接触时提供更严格的比对和接触过滤(以更好地匹配HiCExplorer的结果)。
最后,在比较了Hi-C数据的映射(发现与Juicer流程广泛可重现)后,我们测试了SLUR(M)-py与Juicer的运行时间。具体来说,我们使用了Juicer中在.hic文件创建之前的早期退出以及来自Venu等人的Vero实验的Hi-C数据。在所有样本中,所有使用Juicer流程的运行都需要超过24小时才能收敛到pairs-txt文件,而所有使用SLUR(M)-py自动化的运行在13小时内完成。我们将使用SLUR(M)-py时计算速度的提高和运行时间的减少归因于用于读段分割的快速软件(fastp)、Pandas和Dask Dataframes以及输入读段对上更大的初始分割集合的组合,这降低了总体内存需求并增加了并行进程的数量。

2.7. 重复标记

在初始文库制备期间,PCR扩增可能导致重复测序片段的传播。或者,单个扩增簇可能被光学传感器错误地识别为多个簇,导致产生光学重复。大多数当前实践建议应识别并去除重复片段,以消除偏差并在下游分析中排除假象。然而,对于某些组学分析,标记重复可能是不必要的。例如,在全基因组测序的遗传变异调用期间,最近的一项研究表明,标记和去除重复是内存密集型的且不必要的。类似地,另一项检查ATAC-seq数据中重复的研究发现,许多重复片段(通过位置识别)并不总是PCR扩增的结果,而是真实测序片段,由相同的、小的开放区域被多次测序产生。为识别重复比对,SLUR(M)-py使用片段的5'基因组位置、链方向和序列信号/核苷酸变异过滤比对;匹配其他工具如Picard和Samblaster先前定义的重复定义。鉴于用户可能希望跳过此步骤,重复标记和去除在SLUR(M)-py中是可选的,通过在命令行添加–skip-dedup标志来控制。
为测试跳过重复标记和去除对处理时间和ATAC-seq数据结果的影响,我们使用Roth等人在A549细胞中生成的ATAC-seq数据进行了几个计时测试。跳过重复标记和去除对总体运行时间没有显著影响。虽然我们确实看到处理时间略有增加——平均增加1.18分钟(不显著)——但这归因于流程中最终步骤(如MACS3)处理的数据量增加,而不是重复标记和去除。类似地,虽然我们看到处理后有效ATAC-seq片段计数和FRiP分数有小幅增加(当保留重复时),但这些增加均不被认为显著。
虽然标记和去除重复对这些实验的处理时间和诊断影响很小,但对检测到的显著峰(来自MACS3)的总体影响尚不清楚。在大多数样本中,当保留重复读段对时,MACS3检测到的峰数量增加,在A549细胞系的实验中总体峰计数平均(中位数)增加了近6,371个峰。然而,在八分之二的A549样本中,当在处理过程中保留重复时,识别出的峰更少。我们假设,在这两个异常样本中,重复读段(当保留在分析中时)增加了背景噪声水平,降低了MACS3认为显著的总体峰数。提醒用户注意,对于ATAC-seq实验,排除重复标记和去除可能不影响总处理时间,但可能会改变通过峰调用器(如MACS3)识别的显著峰的数量。

2.8. 使用SLUR(M)-py数据产品的示例:染色体间接触分析

在细胞核内,染色体分离成领土。因此,来自Hi-C实验的大多数测序双端读段将映射 within a given chromosome and are labeled as intrachromosomal contacts。然而,一小部分读段对在染色体之间映射,代表来自不同、相邻染色体的染色质之间的相互作用;这些有效的Hi-C接触被称为染色体间接触。传统上,研究监测染色体间与染色体内接触的比率,但评分染色体间接触的方法尚未开发。
为广泛量化染色体之间的相互作用,SLUR(M)-py提供了染色体间接触分数的估计。染色体间接触分数,如Lieberman-Aiden等人和Duan等人所述,是两条染色体之间相互作用频率的广泛量化。具体来说,该分数是一个比率,通过将两条染色体之间观察到的接触数除以给定涉及所述染色体的染色体间接触总数下的预期接触数来计算。为可视化这些分数,SLUR(M)-py使用Python中的Seaborn绘图包生成热图。这些计算也包含在处理Hi-C数据时的诊断图中。
在检查Venu等人Hi-C数据中的染色体间接触时,我们检测到了疫苗病毒和绿猴参考基因组之间连接事件的假象。绿猴基因组作为参考更完整且更不复杂(只有31个contigs/染色体),与需要显著改进的已发布Vero基因组相比。考虑到宿主-病原体感染实验,SLUR(M)-py可以过滤掉映射到病原体contigs的比对,假设病原体contig已作为额外contig添加到参考基因组中。这些假象存在于Hi-C和ATAC-seq数据中,检测到的疫苗病毒片段数量与测序读段数量成比例。在Hi-C实验中,这些片段占连接事件的一小部分(小于1%),并且仅出现在感染细胞的测定中。可以从ATAC-seq实验中回收映射到疫苗病毒contig的读段对。然而,没有发现跨越疫苗病毒和基因组的读段对。
Hi-C实验中染色体和病毒之间明显的连接在SLUR(M)-py处理后被进一步探索。具体来说,我们检查了配对读段的锚点,分离出一条
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号