编辑推荐:
这篇研究重磅推出Compass框架,通过整合ENCODE和GEO中280万单细胞多组学数据(scRNA-seq+ATAC-seq),构建了首个跨物种(人/鼠)、跨组织(64种)的基因调控比较分析平台。其创新性体现在:1)建立标准化数据库CompassDB(含1184万对CRE-gene关联);2)开发R包CompassR实现组织特异性顺式调控元件(CRE)和转录因子(TF)的可视化挖掘;3)成功解析Myh6、HEY2等基因的器官特异性调控机制,为揭示基因表达异质性提供新工具。
Motivation
单细胞多组学测序技术革命性地实现了同一细胞内基因表达(scRNA-seq)和染色质可及性(ATAC-seq)的同步检测,为解析顺式调控元件(CRE)与靶基因的关联提供了单细胞分辨率的研究手段。然而现有研究多局限于单一组织类型,难以揭示基因调控模式的组织特异性差异。针对这一瓶颈,Compass应运而生——通过系统收集435个公开数据集(覆盖41种人体组织和23种小鼠组织),构建了首个跨组织、标准化的单细胞多组学资源库。
Highlights
该研究的突破性进展体现在三大核心功能:
- 数据资源层面:CompassDB整合了2,818,959个高质量单细胞数据,包含2,165,041个染色质开放区域和11,846,190对CRE-gene关联。分析显示61%的调控关系仅存在于单一组织,凸显跨组织比较的必要性。
- 分析方法层面:开发的开源R包CompassR支持多组织CRE-gene关联的可视化对比,并能识别组织特异性转录因子(如心脏中调控Myh6的Nkx2-5、Tbx家族)。
- 应用价值层面:平台已成功应用于心脏发育(心肌细胞亚群HEY2基因的心室特异性调控)、细胞衰老(基质细胞CCL2基因的表观调控)等关键生物学问题的解析。
Results
技术实现上,Compass采用双模块架构:
- 数据库模块:通过统一处理流程(Cell Ranger ARC+Seurat+Signac)对原始FASTQ数据进行标准化分析,包括基因定量、peak calling(使用LSI降维)、细胞聚类(WNN算法)和基于DISCO数据库的自动注释。质量控制显示不同组织的伪bulk数据能清晰分离,验证了流程可靠性。
- 分析模块:典型案例分析揭示:在心肌细胞中,Myh6基因的启动子远端存在心脏特异性CRE簇,其富集的Gata4、Srf等转录因子与已知心脏发育调控网络高度吻合;而HEY2基因在心室心肌细胞中特有的增强子活性与TBX5因子的结合密切相关。
Discussion
该研究的创新价值在于:
- 首次系统揭示CRE-gene关联的高度组织特异性(95%的关联存在于≤5种组织);
- 提供在线平台(compass-db.com)支持交互式查询,用户可快速获取特定基因(如衰老相关CCL2)在所有组织中的调控元件及候选TF(如BRD4、RELA);
- 开源工具CompassR支持用户导入自有数据进行比较分析。
当前局限在于数据覆盖度(未包含所有组织类型)和批次效应校正需求,未来将通过持续更新数据库和整合功能实验验证来完善平台。
Resource availability
所有数据和分析工具均已公开:
- 数据库门户:http://compass-db.com
- R软件包:https://github.com/changxinw/CompassR
- 标准化流程代码:Zenodo DOI 10.5281/zenodo.15170152
研究团队由杜克大学Zhicheng Ji教授领衔,获NIH U54AG075936、R35GM154865等项目资助。