Compass框架:单细胞多组学数据驱动的跨组织基因调控比较分析新范式

【字体: 时间:2025年05月09日 来源:Cell Reports Methods 4.3

编辑推荐:

  这篇研究重磅推出Compass框架,通过整合ENCODE和GEO中280万单细胞多组学数据(scRNA-seq+ATAC-seq),构建了首个跨物种(人/鼠)、跨组织(64种)的基因调控比较分析平台。其创新性体现在:1)建立标准化数据库CompassDB(含1184万对CRE-gene关联);2)开发R包CompassR实现组织特异性顺式调控元件(CRE)和转录因子(TF)的可视化挖掘;3)成功解析Myh6、HEY2等基因的器官特异性调控机制,为揭示基因表达异质性提供新工具。

  

Motivation
单细胞多组学测序技术革命性地实现了同一细胞内基因表达(scRNA-seq)和染色质可及性(ATAC-seq)的同步检测,为解析顺式调控元件(CRE)与靶基因的关联提供了单细胞分辨率的研究手段。然而现有研究多局限于单一组织类型,难以揭示基因调控模式的组织特异性差异。针对这一瓶颈,Compass应运而生——通过系统收集435个公开数据集(覆盖41种人体组织和23种小鼠组织),构建了首个跨组织、标准化的单细胞多组学资源库。

Highlights
该研究的突破性进展体现在三大核心功能:

  1. 数据资源层面:CompassDB整合了2,818,959个高质量单细胞数据,包含2,165,041个染色质开放区域和11,846,190对CRE-gene关联。分析显示61%的调控关系仅存在于单一组织,凸显跨组织比较的必要性。
  2. 分析方法层面:开发的开源R包CompassR支持多组织CRE-gene关联的可视化对比,并能识别组织特异性转录因子(如心脏中调控Myh6的Nkx2-5、Tbx家族)。
  3. 应用价值层面:平台已成功应用于心脏发育(心肌细胞亚群HEY2基因的心室特异性调控)、细胞衰老(基质细胞CCL2基因的表观调控)等关键生物学问题的解析。

Results
技术实现上,Compass采用双模块架构:

  • 数据库模块:通过统一处理流程(Cell Ranger ARC+Seurat+Signac)对原始FASTQ数据进行标准化分析,包括基因定量、peak calling(使用LSI降维)、细胞聚类(WNN算法)和基于DISCO数据库的自动注释。质量控制显示不同组织的伪bulk数据能清晰分离,验证了流程可靠性。
  • 分析模块:典型案例分析揭示:在心肌细胞中,Myh6基因的启动子远端存在心脏特异性CRE簇,其富集的Gata4、Srf等转录因子与已知心脏发育调控网络高度吻合;而HEY2基因在心室心肌细胞中特有的增强子活性与TBX5因子的结合密切相关。

Discussion
该研究的创新价值在于:

  1. 首次系统揭示CRE-gene关联的高度组织特异性(95%的关联存在于≤5种组织);
  2. 提供在线平台(compass-db.com)支持交互式查询,用户可快速获取特定基因(如衰老相关CCL2)在所有组织中的调控元件及候选TF(如BRD4、RELA);
  3. 开源工具CompassR支持用户导入自有数据进行比较分析。
    当前局限在于数据覆盖度(未包含所有组织类型)和批次效应校正需求,未来将通过持续更新数据库和整合功能实验验证来完善平台。

Resource availability
所有数据和分析工具均已公开:

  • 数据库门户:http://compass-db.com
  • R软件包:https://github.com/changxinw/CompassR
  • 标准化流程代码:Zenodo DOI 10.5281/zenodo.15170152
    研究团队由杜克大学Zhicheng Ji教授领衔,获NIH U54AG075936、R35GM154865等项目资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号