KnowYourCG:助力基础水平的稀疏甲基组数据分析与解读
《SCIENCE ADVANCES》:KnowYourCG: Facilitating base-level sparse methylome interpretation
【字体:
大
中
小
】
时间:2025年10月27日
来源:SCIENCE ADVANCES 12.5
编辑推荐:
DNA甲基化功能分析框架KYCG解决数据稀疏性问题,支持单细胞、空间及5hmC数据分析,整合基因组特征、转录因子结合等知识库,优化计算效率,揭示细胞分化、癌症起源等生物学机制,并检测技术偏差。
DNA甲基组的解码对于揭示生物功能具有重要意义,是表观遗传学研究的核心内容之一。本文介绍的KnowYourCG(KYCG)是一种专门用于功能甲基化分析的数据解释框架。与现有的工具不同,KYCG采用直接的碱基水平筛查方法,能够识别多种生物和实验性影响因素,包括序列模因、转录因子结合、组蛋白修饰、复制时间、细胞类型特异性甲基化以及性状关联。通过构建高效的基础设施,KYCG能够快速筛选和分析数以万计的知识库,从而解决各类甲基化数据集中的数据稀疏性问题,包括低通量或单细胞DNA甲基组、5-羟基甲基化(5hmC)谱、空间DNA甲基化图谱以及用于全基因组关联研究(EWAS)的阵列数据集。将KYCG应用于这些数据集,可以为细胞分化、癌症起源、表观基因组-性状关联以及实验性问题如阵列偏差、单细胞批次效应和Nanopore 5hmC检测准确性提供有价值的见解。我们的工具简化了大规模的甲基化分析,并能与标准的检测技术无缝集成。
DNA甲基化是表观遗传学中研究最为广泛的标记之一,尤其在高等真核生物中。在哺乳动物中,DNA甲基化广泛影响基因调控、基因组进化、生物体发育以及疾病的发生。尽管对DNA甲基组的描述具有广泛兴趣,但理解甲基化变化的功能意义却面临挑战。这主要是因为DNA甲基化被编码在特定的序列单元上,例如CpG二核苷酸,同时它又是高度可塑的,并且受到多种内在和外在因素的共同调控,如细胞身份、遗传因素、病理状态、性别、年龄以及其他环境因素。功能DNA甲基化分析通常需要对序列结构以及所有显性和隐性生物协变量和技术干扰因素保持敏感。
目前,针对DNA甲基化数据的生物连接挖掘的有效计算方法相较于基因表达数据的分析工具而言仍然不足。大多数DNA甲基化功能富集分析方法依赖于最初设计用于分析基因集或基因组区间的技术工具,如DAVID和HOMER。专门为DNA甲基化数据设计的方法通常采用基因中心化或基因组区间分析的模式。换句话说,研究人员必须首先将CpGs与基因联系起来,或基于基因组邻近性形成差异甲基化区域(DMR)。这种方法存在根本性的局限,因为DNA甲基化数据由于CpG岛外的CpG缺乏以及数据获取方法的实践限制,本质上具有稀疏性。例如,Infinium阵列在全基因组范围内仅覆盖了1%到3%的CpGs,而减少表示双硫化测序(RRBS)则覆盖了约10%的CpGs,但仅限于CpG密集区域。全基因组双硫化测序(WGBS)虽然覆盖了整个基因组,但经常缺乏单个碱基的深度和量化精度。单细胞甲基组通常覆盖了基因组中1%到10%的CpG集合,这使得准确定义DMRs变得困难,即使存在真实的差异,也可能变得主观。
为了研究DNA甲基化数据中的功能连接,另一种策略是使用固定的CpG索引,将CpGs作为分析单位,如eFORGE方法所实施的那样。然而,随着新数据集扩展到全基因组覆盖范围(2000万到3000万CpGs),跨数百到数千个知识库集合的重叠计数变得计算效率低下。为了解决上述需求,我们开发了一种全面的计算框架,用于DNA甲基化数据的解释。KYCG分析CpG集合与生物连接和技术干扰因素之间的关系。利用一项关键技术创新,能够快速计算全基因组范围内的CpG集合差异,我们实现了在面对数千个已编辑的生物和技术协变量时,对甲基组进行快速富集测试。接下来,我们首先描述了工具的实现,然后将其应用于五个广泛的应用场景:(i) 低输入量的DNA甲基化谱,包括单细胞和空间DNA甲基化;(ii) 5-羟基甲基化谱和基于Nanopore的直接检测;(iii) 细胞类型组成动态;(iv) 解释预测性机器学习工具,如表观遗传时钟和癌症分类器;以及(v) 检测技术干扰因素。总体而言,我们展示了KYCG能够揭示CpG组与未报告的生物学连接,并展示了多种分析大规模DNA甲基组数据的实用功能。我们的工具兼容基于测序的数据和阵列平台,并提供了一个用户友好的基于网络的应用程序。
在稀疏DNA甲基组的CpG中心化分析方面,KYCG是一个由网络应用程序、R/Bioconductor应用程序编程接口、C命令行工具和数据库组成的框架,用于DNA甲基化数据的探索性富集分析,类似于基因集富集分析,但专注于CpGs。与查询相关的CpG集合,如转录因子(TF)的特定结合位点,被称为知识库集合,以区别于查询。通过使用超几何分布评估查询CpGs与知识库集合之间的重叠显著性。为了实现自动化发现,我们统一处理了12,114,567个CpG索引的知识库,用于下载和在线查询(数据与材料可用性)。这些集合构建自人类和小鼠基因组序列、注释以及公共测序和阵列数据(包括11,806个批量和480,012个单细胞数据)和1067个EWAS研究。通过这种方式,我们能够系统地挖掘DNA甲基化数据中的生物学联系。
为了管理统计复杂性并提高可解释性,我们将CpG集合分为不同的生物测试知识库领域,代表不同的假设空间,具有不同的术语数量、生物学相关性和结构组织。这些领域进一步分为以下四类:(i) 序列特征(如k-mer、四核苷酸和转录因子结合模因),(ii) 基因组特征(如染色质状态、组蛋白修饰、基因联系、转座子、TF结合和进化保守性),(iii) 性状关联(如细胞类型特异性甲基化、人类EWAS关联和表观遗传时钟),以及(iv) 技术关联(如序列掩码器、阵列杂交和扩展掩码)。我们对这些知识库进行了广泛的验证,它们构成了生物学相关的社区(图S1C至E和材料与方法)。这些测试领域定义了独立的假设空间。在这些领域内进行测试可以保持统计效力和生物学焦点。
为了优化性能,我们使用自适应编码来压缩CpG集合,从而实现紧凑的磁盘存储和高效的内存操作。比较算法,用C语言实现位向量化,大大加速了集合重叠分析。我们的结果表明,对于包含100万个CpGs的查询,这种方法比传统的CpG集合表示方法快约10倍,且使用的内存少约60倍。与集合表示不同,比较时间保持恒定,并且可以扩展到大规模查询。与基于BEDTools的计数流程相比,KYCG实现了25倍的速度提升,支持在数千个知识库上的大规模富集测试。类似的性能提升也适用于其他功能,如快速在知识库上进行甲基化聚合(图S1F)。
我们首先在查询稀疏性下测试KYCG的性能,这在RRBS、捕获甲基化测序(methyl-seq)和Infinium阵列中是常见的现象,这些方法仅针对CpG集合的小部分。为了评估富集测试的可行性,我们通过从全基因组集合中对CCCTC结合因子(CTCF)结合相关的CpG集合进行下采样(从2800万个CpGs降至约1700个CpGs)来模拟稀疏性。然后,我们通过比较稀疏和全基因组富集来评估ChromHMM状态排名的稳定性。活性启动子始终排名最高,但稀疏性引入了变化。在稀疏度降至27000个CpGs时,排名最高的ChromHMM术语保持稳定,HM450、EPIC和RRBS数据结果与非稀疏预测相似。然而,在极端稀疏水平(1700个CpGs)下,26%的运行中排名最高的富集项发生了变化。这些发现表明KYCG在稀疏CpG输入下进行富集测试的稳定性。
我们进一步评估KYCG在真实稀疏测序数据中的性能,首先分析了从不同阶段的原始生殖细胞(PGC)发育中获得的甲基组(约200万个到800万个CpGs),其中有限的DNA阻碍了深度测序。将甲基化CpGs与TF结合位点(TFBS)和组蛋白标记知识库进行富集分析,结果显示逃离全局低甲基化的区域富含异染色质(Het)标记,包括组蛋白H3赖氨酸9三甲基化(H3K9me3)和锌指蛋白57(ZFP57)结合。这种富集在雄性胚胎日16.5(E16.5)的PGC中缺失,这与已知的该阶段的甲基化反弹现象一致。这些发现表明KYCG能够揭示基因间区域的生物学信息。
为了评估KYCG在稀疏甲基组分析中的优势,我们将其与HOMER(一种广泛使用的基于基因组区间富集工具)进行了比较。我们使用上述的结肠癌甲基化作为查询,测试了TF结合模因的富集。KYCG识别了生物学相关的模因,如caudal type homeobox 2(CDX2),它在肠道分化中起关键作用,通常作为肿瘤抑制因子和预后标志物。此外,FOX家族和雄激素受体ANDR也被发现与结肠癌相关。测试较大的DMRs与类似的TF结合数据库(材料与方法),HOMER未能识别结肠相关性,而捕获了一般性的TF,影响细胞分化和增殖,如sine oculis homeobox 4(SIX4)和锌指蛋白41(ZNF41)。值得注意的是,当使用聚合的伪批量时,HOMER确实检测到了CDX2和FOX模因的富集。然而,随着细胞数量减少,这种信号会减弱(图S2D),这表明DMR调用可能会稀疏设置中稀释信号。
此外,我们观察到癌症相关的高甲基化模式与癌症细胞的组织来源相一致。例如,尽管在TCGA膀胱癌中,高甲基化CpGs在许多细胞类型中广泛富集于H3K27me3标记,但在比较永生化尿路上皮细胞的H3K27me3标记时,最强的富集被观察到。同样,乳腺癌的高甲基化在相同的标记中被记录下来,源自MCF7乳腺上皮细胞。这些结果表明KYCG在稀疏数据中对生物学关联的检测能力。
为了展示KYCG的广泛应用性,我们将KYCG应用于来自小鼠E11.5胚胎的空间DNA甲基化数据。分析了来自两个空间区域(B和H)的细胞之间的甲基化差异,这些区域位于轻场图像中的脑和心脏区域附近。差异甲基化主要与胚胎发生特异性TF相关,包括锌指蛋白,这与发育阶段一致。区域B的低甲基化在脑特异性TF中富集,如过氧化物酶增殖物激活受体delta(PPARD)、LIM同源盒1(LHX1)、eomesodermin(EOMES)、NK6同源盒1(NKX6-1)和single-minded同源盒2(SIM2),而区域H的低甲基化在心脏特异性因子如heart and neural crest derivatives expressed 2(Hand2)中富集。值得注意的是,脑特异性TF distal-less同源盒6(DLX6)在区域H中低甲基化,表明倾向于甲基化DNA结合。这些结果突显了KYCG在解析区域特异性甲基化差异及其与生物学过程连接方面的能力。
聚合甲基化信号可以缓解单细胞数据集中的缺失问题。然而,使用较大的bin或连续基因组区间进行聚合可能会掩盖跨越多个基因组位点的生物相关性转录因子特征。利用KYCG的快速聚合能力(图S1F),我们分析了来自20个脑细胞类型的4000个单细胞数据,以揭示细胞身份的转录网络。差异甲基化分析揭示了不同的模式,如在寡突胶质细胞中,oligodendrocyte transcription factor 2(OLIG2)、SRY-box transcription factor 2(SOX2)和SRY-box transcription factor 8(SOX8)的结合处的低甲基化,这些是关键的发育调控因子。此外,TFBS甲基化区分了微胶质细胞中的核因子、interleukin 3 regulated(NFIL3)和lymphoblastic leukemia derived sequence 1(LYL1)的结合,这与免疫功能相关。此外,TFBS甲基化区分了表层皮质神经元(L1-3/L2-4)与深层层(L4-5/L5-6),突出了表观遗传对皮质层发育的调控。这些发现表明KYCG在稀疏单细胞数据中的降维和特征聚合方面的实用性。
KYCG在分析5hmC和评估Oxford Nanopore Technologies(ONT)的直接检测方面也提供了帮助。5hmC是5-甲基胞嘧啶(5mC)氧化和去甲基化的中间产物,对表观遗传细胞身份起关键作用。尽管其重要性,5hmC的分布具有动态和稀疏性。即使在脑组织中,5hmC也只达到5mC水平的10%到20%,这对数据分析构成了重大挑战。为了应对稀疏5hmC数据的分析挑战,我们测试了KYCG在最近的单细胞研究中的5hmC谱。使用snhmC-seq2数据(图3A和图S3A和B),我们评估了脑细胞类型,其中5hmC仅在星形细胞和少突胶质细胞中测量到0.2%到1%的CpGs。成对比较揭示了5hmC在细胞类型间的差异在TF结合和与脑细胞分化程序相关的基因中富集。T-box脑转录因子1(TBR1)和Eomes作为区分兴奋性神经元和抑制性神经元的最显著TF。这些TF对大脑皮层中兴奋性神经元的发育至关重要,通常在GABA释放的抑制性神经元中缺失。此外,Myocyte Enhancer Factor 2A(Mef2a)作为一种重要的兴奋性神经元转录因子,其结合在兴奋性神经元与少突胶质细胞的5hmC差异中显著富集。这些结果表明KYCG在解析5hmC与生物功能之间的关系方面具有实用性。
在非脑高周转组织中,5hmC的稀缺性甚至更明显,因为5hmC是DNA甲基转移酶1(DNMT1)的不良底物,并且在快速分裂的细胞中无法维持。这种超稀疏性使得对全基因组5hmC模式的区间和位点分析变得不切实际。为了评估KYCG在此情境下的效用,我们分析了104个人类5hmC谱,这些谱来自25种组织类型,使用bACE阵列技术生成。应用KYCG来评估组织特异性5hmC信号(图3B)。5hmC在增殖性组织(如淋巴细胞和胎盘)中的位点在相应细胞类型的标记基因附近富集。例如,胎盘特异性5hmC增益位于ADAM12和EPAS1基因,这些基因在滋养层中表达,调节胎盘血管化、营养可用性和免疫耐受。在淋巴结中,5hmC在IGHM、IGKC等基因附近富集,这些基因参与B细胞信号和抗体生成。这些观察结果表明KYCG在解析超稀疏5hmC数据中的组织特异性表观遗传调控方面的灵活性。
Oxford Nanopore Technology(ONT)是一种新兴的直接区分5mC、5hmC和未修饰C的方法,通过离子电流信号(图3C和图S3C)。然而,ONT的5hmC检测仍然需要校准,并且由于5hmC的稀疏性和异质性,每个位点的准确性评估困难。为了应对这一问题,我们使用KYCG评估ONT生成的5mC和5hmC信号的生物学相关性。这些结果支持了ONT在解析5hmC景观方面的广泛生物学相关性。
为了验证细胞类型特异性甲基化集合的质量,我们研究了它们的基因组分布并验证了它们在不同研究中的集合。首先,与先前报告一致,细胞类型识别的甲基化信号更多基于目标细胞类型中甲基化的缺失而非存在(图4B),并代表细胞类型特异性增强子染色质(图S4A)。其次,细胞类型特异性甲基化可能调节目标细胞类型的标记基因,这表明了直接的转录后果。基因组邻近性分析发现,高甲基化集合比低甲基化集合在空间上更密集,这表明它们定位在CpG岛并参与目标基因表达(图S4B)。第三,使用归一化的点对点互信息(NPMI)来衡量集合重叠,我们发现来自不同测序项目的相关细胞类型与相似的甲基化信号具有一致的方向性(图4D)。最后,细胞类型特异性甲基化与细胞谱系指定相关。例如,脑细胞甲基化信号在神经发育和特定神经元或胶质细胞类型的分化中富集(图S4C)。
一些不相关的细胞类型在重叠的CpG位点上共享甲基化变化,这表明了调控网络的重复使用(图4E)。例如,抑制性中脑侧脑室(MGE)神经元和肺气管细胞,尽管在不同的器官系统和发育起源中,共享了甲基化信号(图4E和F)。虽然出乎意料,但我们确认这些区域在NKX2-1位点上确实具有相似的甲基化,并且在与其他细胞类型比较时,其NKX2-1表达模式相似。这些结果表明了KYCG在解析细胞类型特异性甲基化方面的效用。
细胞组成动态可能是表观遗传关联在全基因组研究中的机制。使用我们的细胞特异性知识库,我们测试了KYCG是否能检测细胞组成变化。我们观察到,特征关联的CpGs在相应的细胞类型签名中富集(图4H和表S1B)。例如,炎症性肠病和克罗恩病相关的CpGs在下消化道细胞标记中富集,而与2型糖尿病相关的甲基化CpGs在胰腺细胞中富集。类似地,肝衰老和肝细胞癌研究中的甲基化变化在携带肝细胞特异性甲基化的CpGs中富集。这些观察结果可能反映了疾病相关的细胞组成变化或细胞身份相关位点的异常甲基化。
在解析预测性机器学习模型方面,KYCG能够揭示模型的运作方式。DNA甲基化基础的预测模型在翻译应用中被广泛使用。然而,解释这些“黑盒”模型仍然是一个挑战。我们假设KYCG可以通过分析模型特征来揭示预测模型的运作。下面,我们以表观遗传时钟和癌症分类器为例进行探讨。
我们查询了八个预测慢性衰老和生物性改变的表观遗传时钟。首先,我们观察到不同时钟模型的特征与不同的富集项相关,这可能反映了时钟的预测目标(图5A)。DunedinPACE时钟,设计用于从19种不同的生理测量预测衰老速度,高度富集于与体重和代谢性状相关的甲基化位点。EpiTOC时钟测量有丝分裂活动,并在癌症研究、部分甲基化区域(PMDs)和Polycomb group目标中富集。Horvath、Levine和Hannum时钟预测慢性或表型年龄,并在免疫细胞类型如单核细胞、自然杀伤(NK)细胞和树突状细胞的细胞特异性甲基化中富集(图S5A)。这些富集反映了衰老过程中血液组成的改变,并被表观遗传时钟用于预测年龄。与其它衰老时钟相比,Bohlin和Knight妊娠年龄时钟在独立的妊娠年龄EWAS研究中富集,而Lee时钟(在胎盘组织上训练)也在一个妊娠年龄研究中富集。类似地,它也在癌症相关甲基化、双价染色质、Polycomb group目标和PMDs中富集。
除了将时钟特征与相关性状联系起来,KYCG还产生了关于模型运作的假设。Lee时钟的富集可能反映了胎盘组织的高增殖性和癌症样特性,这可能解释了其他脐血训练的时钟在胎盘样本上的表现不佳。对于Horvath和Hannum时钟,预测慢性年龄,我们观察到在免疫细胞类型中的细胞特异性甲基化富集,这反映了衰老过程中血液组成的改变,并被表观遗传时钟用于预测年龄。与其它衰老时钟相比,Bohlin妊娠年龄时钟在HOXB基因和组蛋白H3K36me2标记中富集,这表明时钟可能使用了homeobox(HOX)基因的甲基化,这些基因对妊娠发育和身体模式形成至关重要。甲基化增益可能由H3K36me2介导,该标记通过PWWP结构域招募DNMT3s。相同的HOXB3位点(cg15908709)也与妊娠年龄在独立数据集中相关(图S5B),这验证了这一联系。最后,KYCG发现DunedinPACE时钟特征在肥胖性状(如体重指数、肥胖和肝脂肪)以及炎症性疾病信号(如克罗恩病、肠易激综合征和C反应蛋白)中富集,这表明时钟可能通过关键循环糖蛋白的表观遗传调控来追踪疾病。
我们接下来询问KYCG是否能帮助解释癌症分类器。我们使用随机森林分类器在2801个公共脑肿瘤甲基组上训练,这些甲基组来自超过80个肿瘤类别(材料与方法)。KYCG发现重要性得分最高的特征在增强子和活跃转录的基因中富集,而重要性较低的CpGs仅在基因体内富集(图5D)。这表明癌症分类的信号来源是肿瘤细胞的起源和细胞身份差异的调控网络。此外,KYCG还能解释误分类。例如,我们比较了五种正确分类的脑膜瘤与五种误分类的肿瘤(材料与方法),并根据主成分分析(图5E和图S5D)将它们分组。在主成分分析中,200个重要性得分最高的CpGs在神经元、内皮和小胶质细胞特征中富集,这表明这些样本可能有不同的细胞起源。在分类组之间进行线性建模,识别了30,686个区分正确分类和误分类的差异甲基化CpGs。这些CpGs在TNXB中富集(图5F和G),该基因先前被显示在脑膜的硬脑膜和软脑膜层之间差异甲基化。这表明误分类可能反映了脑膜瘤起源于不同的软脑膜层。
在单细胞和EWAS数据集中检测技术干扰因素方面,KYCG能够识别与测序和阵列特异性偏差相关的CpG集合,如受遗传变异影响的甲基化测量或覆盖均匀性不足,从而实现自动合理性检查。为了展示这一效用,我们首先应用KYCG分析了12个单细胞甲基组研究,使用了八种检测技术。通过根据它们的基因组特征富集将这些单细胞甲基组聚类,揭示了检测技术对覆盖均匀性的影响(图6A)。大多数单细胞甲基组数据集在覆盖均匀性上偏向于CpG密集区域,如转录起始位点(Tss/TssBiv),并且在Het和Quies区域中贫乏,尽管大多数文库制备方法并不有意富集特定的基因组区域。作为阳性对照,这种偏差在单细胞减少表示双硫化测序(scRRBS)和单细胞扩展表示双硫化测序(scXRBS)中最为显著,因为它们明确地富集于CpG密集的调控区域。iscCOOL、scCOOL和sciMETv2在CpG丰富区域表现出相反的贫乏模式,并在Het中略有富集(图6A)。这种相反的不均匀性可能与采用尾接和连接方法而非常规的双硫化后适配器标记有关。基于隔离细胞的检测技术(如snmC-seq)在线粒体CpGs中贫乏,而那些分析全细胞DNA的检测技术则在线粒体基因组中富集,这反映了其高拷贝数(图S6A)。我们将两个单细胞脑数据集整合,这些数据集使用了两种不同的检测技术。我们发现,相同细胞类型的细胞形成不同的聚类。KYCG揭示了这些差异主要与捕获不同染色质特征的偏差相关,其中Luo等人(50)更好地捕获了Quies区域,并且在线粒体和基因体的染色质状态中略为贫乏,特别是神经元和少突胶质细胞中,与Lee等人(121)(图S6B和C)覆盖的区域相比。
基因组邻近性测试方面,KYCG通过泊松分布对超甲基化和低甲基化CpG标记的邻近性测试建模,其中λ参数代表在固定1500 bp区间内发生的CpG数量。对于给定的查询CpG集合,通过1000次随机采样模拟生成一个空分布,并计算在1500 bp区间内事件(CpG共现)的平均数量作为λ参数。该λ值用作泊松点估计,以计算查询集合中CpG共现的概率。
在验证KYCG的性能和稳定性方面,我们进行了多种测试。在不同平台(全基因组、EPIC和HM450)上,随机生成了100万、50万和10万的查询,这些查询是通过采样(必要时重复采样)相应的平台宇宙空间获得的。这些查询在共识ChromHMM特征中进行富集测试,使用相应的平台作为背景宇宙空间。每个查询大小-平台对的测试重复了100次。使用Sys.time()函数测量了R中的集合富集测试时间。对于向量化测试,使用命令行时间函数进行测量。测试时间仅测量Fisher’s exact测试过程,不包括知识库和宇宙文件的I/O时间或查询生成时间。使用相同的查询和ChromHMM特征测试了内存使用情况。最大驻留集大小通过time -f “%M”参数记录,从加载文件到测试富集的时间。
在分析CpG集合与生物和实验性因素之间的关系时,我们发现了一种高效的解决方案。这种方法适用于稀疏和非稀疏数据集,为离散甲基化数据集提供了多尺度解释。此外,许多基于群体规模的表观遗传研究在其“CpG子空间”内进行操作,如由Infinium微阵列设计所限定的。CpG索引的富集分析非常适合这些情境,如现有工具所实施的那样。然而,一个统一的框架,能够跨数据类型进行一般化,包括可能(如WGBS)或可能不(如RRBS)针对固定CpG集合的测序方法,仍然缺乏。为此,我们进行了计算机模拟实验,评估了不同CpG子空间内富集测试的稳定性。我们的分析表明,当使用正确的测试宇宙时,来自阵列定义的CpG子空间的富集结果忠实地跟踪了全基因组数据集的结果,除了在极端稀疏的情况下。这些结果可能取决于查询和知识库集合。使用CTCF结合位点作为查询,我们观察到相对于同样覆盖的基因组数据,显著术语的数量略有减少。这可能是由于阵列定义的子空间偏向于基因和增强子区域,这可能遗漏了基因间信号。然而,排名最高的富集项仍然保持稳定。由于甲基化微阵列的CpG子空间较小,这种对稀疏的富集稳定性可能证明了采用阵列技术在降低实验和计算成本方面的合理性。
KYCG的一个关键优势是其统一设计,能够将数据与整理好的资源集成,与检测平台无关。对于常见的阵列平台,KYCG预先计算了基于CpG探针ID的知识库。对于基于测序的知识库,KYCG动态设置适合查询范围的背景宇宙。这种灵活性使在阵列和测序平台之间进行一致的富集分析成为可能,促进了数据与来自不同检测类型的知识整合。
除了定义的CpG子空间,KYCG能够将碱基级解释扩展到高度稀疏的DNA甲基组数据集,包括单细胞(如snmC-seq或sci-MET)和空间甲基组(如Spatial-DMT)。这些检测方法提供了高分辨率的见解,但存在信号丢失和低单个位点覆盖的问题,限制了传统的DMR分析方法。当无法捕获足够的细胞类型细胞时,聚合到伪批量也可能具有挑战性。KYCG提供了一种解决方案,用于研究“脏”差异甲基化,其中每个位点的差异未被统计分析,并且DMR边界模糊。这种策略可能也适用于全局但微妙的甲基化变化的生物学场景,如甲基化读取器缺陷。
为了实现全面测试的可行性,KYCG在扫描全基因组方面具有高效性。与基因富集分析相比,富集测试方法在全基因组范围内处理了约2800万个CpGs,这构成了一个主要的计算障碍。当知识库较小且CpGs可以在CpG子空间中索引时,可以采用传统的集合比较方法。然而,当查询和知识库变大时,需要更高效的解决方案。我们探索了两种路径来解决这一障碍,并提供了灵活的计算解决方案。我们根据基因组坐标对CpGs进行索引,用于大规模查询和知识库,并使用向量化计数方法快速计算集合重叠。这大大增强了集合比较的性能,并使测试数千个知识库成为可能。同样的想法也可以应用于5hmC和非CpG甲基化,这些特征的数量更多,内存需求更高。更强大的压缩方法可能被用来进一步提高计算效率。
在实施KYCG策略时,我们注意到CpG索引的富集测试需要查询和知识库集合,并且可能需要宇宙集合。这可能是某些工具如HOMER不支持2-碱基查询的原因。虽然某些工具如LOLA可以接受2-碱基查询,但如果知识库保持区间基于,就会产生偏差。将这些区间转换为2-碱基分辨率可以消除偏差,但没有高效索引,会大大增加存储和计算时间,限制其在大规模数据库中的可扩展性。例如,比较KYCG和LOLA在分析图2B中描述的数据时的端到端运行时间,KYCG明显更高效(图S6E),尽管这两个工具产生了相似的结果。
为了验证KYCG在稀疏数据中的性能,我们对多个测试进行了评估。在不同平台(全基因组、EPIC和HM450)上,随机生成了100万、50万和10万的查询,这些查询是通过采样(必要时重复采样)相应的平台宇宙空间获得的。这些查询在共识ChromHMM特征中进行富集测试,使用相应的平台作为背景宇宙空间。每个查询大小-平台对的测试重复了100次。使用Sys.time()函数测量了R中的集合富集测试时间。对于向量化测试,使用命令行时间函数进行测量。测试时间仅测量Fisher’s exact测试过程,不包括知识库和宇宙文件的I/O时间或查询生成时间。使用相同的查询和ChromHMM特征测试了内存使用情况。最大驻留集大小通过time -f “%M”参数记录,从加载文件到测试富集的时间。
在分析CpG集合与生物和实验性因素之间的关系时,我们发现了一种高效的解决方案。这种方法适用于稀疏和非稀疏数据集,为离散甲基化数据集提供了多尺度解释。此外,许多基于群体规模的表观遗传研究在其“CpG子空间”内进行操作,如由Infinium微阵列设计所限定的。CpG索引的富集分析非常适合这些情境,如现有工具所实施的那样。然而,一个统一的框架,能够跨数据类型进行一般化,包括可能(如WGBS)或可能不(如RRBS)针对固定CpG集合的测序方法,仍然缺乏。为此,我们进行了计算机模拟实验,评估了不同CpG子空间内富集测试的稳定性。我们的分析表明,当使用正确的测试宇宙时,来自阵列定义的CpG子空间的富集结果忠实地跟踪了全基因组数据集的结果,除了在极端稀疏的情况下。这些结果可能取决于查询和知识库集合。使用CTCF结合位点作为查询,我们观察到相对于同样覆盖的基因组数据,显著术语的数量略有减少。这可能是由于阵列定义的子空间偏向于基因和增强子区域,这可能遗漏了基因间信号。然而,排名最高的富集项仍然保持稳定。由于甲基化微阵列的CpG子空间较小,这种对稀疏的富集稳定性可能证明了采用阵列技术在降低实验和计算成本方面的合理性。
KYCG的一个关键优势是其统一设计,能够将数据与整理好的资源集成,与检测平台无关。对于常见的阵列平台,KYCG预先计算了基于CpG探针ID的知识库。对于基于测序的知识库,KYCG动态设置适合查询范围的背景宇宙。这种灵活性使在阵列和测序平台之间进行一致的富集分析成为可能,促进了数据与来自不同检测类型的知识整合。
除了定义的CpG子空间,KYCG能够将碱基级解释扩展到高度稀疏的DNA甲基组数据集,包括单细胞(如snmC-seq或sci-MET)和空间甲基组(如Spatial-DMT)。这些检测方法提供了高分辨率的见解,但存在信号丢失和低单个位点覆盖的问题,限制了传统的DMR分析方法。当无法捕获足够的细胞类型细胞时,聚合到伪批量也可能具有挑战性。KYCG提供了一种解决方案,用于研究“脏”差异甲基化,其中每个位点的差异未被统计分析,并且DMR边界模糊。这种策略可能也适用于全局但微妙的甲基化变化的生物学场景,如甲基化读取器缺陷。
为了实现全面测试的可行性,KYCG在扫描全基因组方面具有高效性。与基因富集分析相比,富集测试方法在全基因组范围内处理了约2800万个CpGs,这构成了一个主要的计算障碍。当知识库较小且CpGs可以在CpG子空间中索引时,可以采用传统的集合比较方法。然而,当查询和知识库变大时,需要更高效的解决方案。我们探索了两种路径来解决这一障碍,并提供了灵活的计算解决方案。我们根据基因组坐标对CpGs进行索引,用于大规模查询和知识库,并使用向量化计数方法快速计算集合重叠。这大大增强了集合比较的性能,并使测试数千个知识库成为可能。同样的想法也可以应用于5hmC和非CpG甲基化,这些特征的数量更多,内存需求更高。更强大的压缩方法可能被用来进一步提高计算效率。
在实施KYCG策略时,我们注意到CpG索引的富集测试需要查询和知识库集合,并且可能需要宇宙集合。这可能是某些工具如HOMER不支持2-碱基查询的原因。虽然某些工具如LOLA可以接受2-碱基查询,但如果知识库保持区间基于,就会产生偏差。将这些区间转换为2-碱基分辨率可以消除偏差,但没有高效索引,会大大增加存储和计算时间,限制其在大规模数据库中的可扩展性。例如,比较KYCG和LOLA在分析图2B中描述的数据时的端到端运行时间,KYCG明显更高效(图S6E),尽管这两个工具产生了相似的结果。
为了评估KYCG在稀疏数据中的性能,我们对多个测试进行了评估。在不同平台(全基因组、EPIC和HM450)上,随机生成了100万、50万和10万的查询,这些查询是通过采样(必要时重复采样)相应的平台宇宙空间获得的。这些查询在共识Chrom
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号