Loop Catalog:人类和小鼠样本的全面HiChIP数据库——解析染色质环在基因调控与疾病中的关键作用

【字体: 时间:2025年06月21日 来源:Genome Biology 10.1

编辑推荐:

  研究人员开发了Loop Catalog数据库,整合了152项研究中1044个独特人类和小鼠HiChIP样本的4.19M染色质环数据,通过SNP-to-gene linking、motif富集分析和3D基因组建模,揭示了非编码变异通过染色质环调控基因表达的机制,为GWAS和eQTL研究提供了重要资源。该数据库支持WashU Epigenome Browser可视化,显著提升了染色质互作数据的可及性和分析深度。

  

在基因组研究领域,染色质的三维结构如何影响基因调控始终是未解之谜。特别是那些跨越数十万碱基的染色质环(chromatin loops),它们像分子桥梁一样连接着远端调控元件与基因启动子,但科学家们至今未能完全理解这些环状结构在细胞类型特异性功能和疾病风险中的作用机制。随着HiChIP(Hi-C with chromatin immunoprecipitation)技术的兴起,研究人员现在能够以较低测序深度捕获特定蛋白质介导的染色质互作,然而海量的公共数据集缺乏统一处理和分析平台,严重阻碍了该领域的进展。

针对这一瓶颈,来自拉霍亚免疫学研究所(La Jolla Institute for Immunology)的Ferhat Ay团队在《Genome Biology》发表了突破性研究。他们开发了Loop Catalog——目前最全面的HiChIP数据库,整合了1334个人类和小鼠样本(包括44个高分辨率Hi-C样本)的152项研究数据,鉴定出超过419万个独特染色质环。通过创新的SNP-to-gene linking(SGL)分析、保守锚定区的motif富集研究和3D染色质建模,该研究不仅为解析非编码变异的功能机制提供了新工具,还揭示了锌指蛋白等转录因子在染色质环形成中的潜在作用。

关键技术方法包括:1)使用HiC-Pro、Juicer和distiller-nf三种流程处理HiChIP数据;2)采用FitHiChIP和HiCCUPS进行多分辨率(5/10/25 kb)环检测;3)整合CAUSALdb的精细定位GWAS SNPs和eQTL Catalogue数据;4)应用MEME Suite进行motif富集分析;5)开发METALoci算法构建2D染色质模型。样本来源于NCBI GEO和dbGaP数据库的763个人类和281个小鼠样本,涵盖H3K27ac、CTCF等多种染色质标记。

【Curating HiChIP and ChIP-seq samples】
研究团队系统收集了2016-2024年间公开的HiChIP数据,涵盖60%人类样本的H3K27ac和54%小鼠样本的H3K4me3标记。通过自动化流程从GEO提取元数据,最终获得1044个未合并样本和284个合并样本,创建了包含15.5M互作(人类11M,小鼠4.5M)的资源库。

【Uniform processing and quality controls】
比较HiC-Pro、Juicer和distiller-nf三种比对流程发现,HiC-Pro在aggregate peak analysis(APA)中表现最优。在peak calling评估中,FitHiChIP比HiChIP-Peaks多召回50%的ChIP-seq peaks。质量控制采用11项指标,对read alignment、peak calling和loop calling进行"Poor/Warning/Good"三级评分,确保数据可靠性。

【SNP-to-gene links in immune diseases】
通过整合79个免疫相关HiChIP样本与四种自身免疫疾病(T1D、RA、PS、AD)的GWAS数据,鉴定出28,162个独特SGLs。以T1D为例,发现IL15RA启动子通过染色质环与rs61839660 SNP相连,该互作在T细胞和NK细胞中存在而在单核细胞中缺失,提示适应性免疫特异性调控机制。

【Motif enrichment at conserved anchors】
在54个高置信度H3K27ac样本(HCRegLoops-All)中,80%样本共享的1,160个保守锚定区显示出NRF1、EGR家族和锌指蛋白(如PATZ1、KLF15)的motif显著富集。CTCF样本组(HCStructLoops)中CTCF motif富集比达3.56倍,验证了方法敏感性。

【Paired motif analysis】
首创的bootstrap分析揭示锚定区motif配对规律,发现ZNF460-ZNF135在100%样本中显著共现,PATZ1-KLF15在75.9%样本中共现,表明锌指蛋白组合可能参与稳定染色质环结构。

【2D chromatin modeling】
应用METALoci构建±2 Mb区域的2D模型,在CD4+ T细胞中可视化MCM3和CEP85L基因附近增强子活性,空间自相关分析(Moran's I指数)显示这些区域存在显著的HH(高-高)聚类模式。

这项研究建立的Loop Catalog不仅是目前最全面的染色质环数据库,其创新性分析模块更推动了三维基因组学的多领域应用。通过SGL分析将4.19M染色质环与疾病变异关联,解决了非编码变异靶基因预测的难题;保守motif的发现为染色质环形成机制提供了新见解;而2D建模工具则革新了染色质构象的可视化方法。特别值得注意的是,该研究发现锌指蛋白(如PATZ1)可能具有类似CTCF的染色质绝缘功能,这挑战了现有认知并为后续功能研究指明方向。随着更多HiChIP数据的整合,Loop Catalog将持续赋能三维基因组学、疾病遗传学和基因调控网络研究,最终实现从染色质结构到疾病机制的完整解析。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号