DiffHiChIP:基于距离衰减建模的HiChIP差异染色质互作识别新方法

《Cell Reports Methods》:DiffHiChIP: Identifying differential chromatin contacts from HiChIP data

【字体: 时间:2025年11月04日 来源:Cell Reports Methods 4.5

编辑推荐:

  本刊推荐:为解决HiChIP数据中差异染色质环检测的挑战,特别是长程互作识别不足的问题,研究人员开发了DiffHiChIP综合框架。该研究整合了edgeR GLM模型与IHW距离校正技术,在五个数据集上验证表明其能显著提升长程(>400 kb)差异环的检测灵敏度与特异性,为研究条件特异性染色质调控提供了稳健工具。

  
随着染色体构象捕获(3C)技术的快速发展,HiChIP(Hi-C coupled with chromatin immunoprecipitation)作为一种高效探测特定蛋白(如CTCF、H3K27ac)介导的染色质互作的技术,因其所需测序深度远低于传统Hi-C(约3亿条reads即可达到5 kb分辨率),已被广泛应用于多种细胞类型和条件的染色质环研究。然而,如何准确识别不同生物学条件(如疾病与对照、不同细胞类型或基因扰动前后)下的差异染色质环,仍是当前领域的难点。现有方法多直接借用为RNA-seq数据设计的计数模型(如DESeq2、edgeR),但这些模型并未考虑染色质接触计数随基因组距离增加而呈指数衰减的特性,导致对长程(>400 kb)差异环的检测能力不足。即使采用隐式或显式的距离效应校正,此局限性依然存在。因此,亟需一个专门针对HiChIP数据特性、能够稳健识别差异染色质互作,特别是长程互作的分析框架。
为此,研究人员在《Cell Reports Methods》上发表了题为“DiffHiChIP: Identifying differential chromatin contacts from HiChIP data”的研究论文,提出了首个用于HiChIP及类似3C数据差异环检测的综合框架——DiffHiChIP。
为了系统解决上述问题,研究人员开发了DiffHiChIP。其核心技术方法包括:1)支持两种主流计数模型:DESeq2和edgeR(包括其exactTest、基于广义线性模型GLM的似然比检验LRT和拟然比F检验QLFTest);2)创新性地引入两种距离衰减效应建模策略:独立假设加权(IHW)校正p值和使用等占据分箱(equal occupancy binning)的自定义距离分层(Distance Stratification)技术;3)提供两种背景接触点估计策略:使用所有样本非零接触的“完整背景”(A)或仅使用在至少一个样本中显著的环的“过滤背景”(F)。该研究利用五个独立的HiChIP数据集(涵盖CTCF耗竭、细胞因子刺激、STAG2敲低、IKAROS突变以及不同T细胞亚型比较等场景)进行了全面基准测试,并辅以匹配的Hi-C、ChIP-seq和RNA-seq数据作为正交验证。
研究结果首先显示,在距离衰减效应建模方面,IHW校正(A+IHW)相较于传统的Benjamini-Hochberg(BH)校正(A+BH)或自定义距离分层(A+D),能更有效地捕获长程差异环。例如,在HCT116细胞系中,IHW专属差异环的距离上四分位数(75th percentile)可达1.2 Mb,而距离分层专属环仅为660 kb,HiCDC+方法则局限在450 kb以内。基因组特定位点分析(如HCT116中IER5L基因与下游约400 kb超级增强子之间的环,以及IKAROS数据中Jchain基因座>250 kb的环)进一步证实,IHW与edgeR GLM(尤其是glmQLFTest)结合能检测到其他方法遗漏的长程差异互作。
在统计模型比较上,edgeR的GLM模型(glmLRT和glmQLFTest)展现出比DESeq2和edgeR exactTest更高的检测灵敏度。尤其是在 replicates 较少(n=2)的数据集中,GLM模型能报告更多差异环,且其与IHW结合(A+IHW)在恢复参考差异Hi-C环方面表现优异。而当 replicates 数量增加(如n=6)时,DESeq2报告的差异环数量大幅上升,但其特异性可能降低,部分结果缺乏Hi-C数据支持,提示可能存在较多假阳性。
关于背景估计,使用“完整背景”(A)通常比“过滤背景”(F)报告更多差异环,且两者在APA(Aggregate Peak Analysis)富集分数和Hi-C环恢复率上差异不大。过滤背景虽能减少约2倍运行时间,但在提升特异性方面优势有限。
下游功能分析强化了DiffHiChIP结果的生物学意义。差异环锚定基因的表达变化分析显示,与差异环重叠的差异表达基因(DEGs)其log2折叠变化往往显著高于未重叠的DEGs。基因本体(GO)和转录因子(TF) motif富集分析也揭示了条件特异性环与相关生物学过程的关联,例如在IFN-γ刺激的HaCaT细胞中,上调环关联基因富集于干扰素反应和炎症通路;在CTCF耗竭的HCT116细胞中,丢失环的锚点区域富集了CTCF等环路相关TF的motif。
综上所述,DiffHiChIP通过整合多种统计模型和创新的距离衰减校正策略,提供了一个全面、稳健的差异HiChIP环检测解决方案。其显著提升的长程互作检测能力以及对生物学相关差异环的准确识别,为利用日益增长的HiChIP数据研究条件特异性染色质三维调控机制提供了强大工具。该框架的代码已公开,预计将对基因组三维结构研究领域产生广泛影响。
研究的局限性包括:DiffHiChIP检测到的差异环可能源于3D染色质折叠的真实变化,也可能仅是底层1D ChIP-seq信号差异所致,需匹配的ChIP-seq数据才能区分;GLM模型要求每个条件至少2个重复;且评估性能需综合多种互补指标,单一指标可能无法全面反映方法优劣。尽管如此,DiffHiChIP仍是当前针对HiChIP数据进行差异分析最全面的框架,其提出的最佳实践建议将指导该领域的后续研究。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号