RobusTAD:基于参考面板的嵌套拓扑相关结构域注释方法

【字体: 时间:2025年05月20日 来源:Genome Biology 10.1

编辑推荐:

  拓扑相关结构域(TADs)层级注释面临边界识别和层级推断难题。麦吉尔大学研究者开发 RobusTAD,利用参考面板 Hi-C 数据优化边界,结合非参数检验和动态规划算法构建嵌套结构。其在多任务中优于现有工具,为低覆盖 Hi-C 数据解析提供新方案。

  
基因组的三维(3D)结构在基因调控、细胞命运决定等生命过程中扮演着关键角色,拓扑相关结构域(Topologically Associating Domains, TADs)作为其中的基本单元,其层级组织的解析一直是领域内的核心挑战。Hi-C 技术虽能揭示染色体的折叠模式,但受限于测序深度和分辨率,准确识别嵌套 TAD 的边界及层级关系仍困难重重。现有工具多依赖单一样本数据,对低覆盖数据鲁棒性不足,且在跨细胞类型保守性利用上存在局限。因此,开发一种整合多样本数据、提升注释精度的方法成为迫切需求。

加拿大麦吉尔大学(McGill University)的研究团队针对上述问题,开展了基于参考面板的 TAD 层级注释方法研究。他们开发的 RobusTAD 算法,通过引入公共 Hi-C 数据集作为参考面板,结合局部匹配染色质构象(Locally Matched Chromosome Conformations, LMCC)优化边界预测,并利用动态规划算法构建全局最优的嵌套 TAD 结构。该研究成果发表在《Genome Biology》,为解析 TAD 的复杂层级和功能提供了新范式。

研究主要采用以下关键技术方法:

  1. 非参数检验评分:通过分层秩和检验计算 TAD 边界和结构域评分,评估区域内互作富集程度。
  2. 参考面板优化:从 177 个公开 Hi-C 数据集中筛选 LMCC,对初步预测的边界进行 refinement,提升定位精度。
  3. 动态规划算法:借鉴 RNA 二级结构预测的 Nussinov 算法,将左右边界配对形成嵌套层级,最大化整体 TAD 评分。

研究结果


1. RobusTAD 算法框架与性能评估


RobusTAD 分三步实现 TAD 注释:首先基于单样本数据识别低精度边界,然后利用参考面板的 LMCC(边界位置相差≤25 kb 的 Hi-C 样本)优化边界位置,最后通过动态规划算法构建嵌套层级。在 GM12878 细胞 Hi-C 数据(250M 读对)中,与 14 种现有工具(如 Arrowhead、RefHiC)对比,RobusTAD 在 CTCF ChIA-PET 支持率(38%)、边界与 CTCF 结合位点富集度等指标中表现优异,且 UMAP 分析显示其与 RefHiC 等工具聚为高精度簇。

2. 低覆盖数据下的鲁棒性验证


在测序深度从 40 亿读对降至 6250 万读对的 GM12878 数据中,RobusTAD 的边界预测一致性(Jaccard 指数)和 TAD 结构一致性(Measure of Concordance, MoC)均显著高于多数工具。即使在 250M 读对时,其 CTCF 支持的 TAD 数量最多,表明其对低覆盖数据的适应性优于传统方法。

3. 跨细胞类型的通用性


在 IMR-90 和 K562 细胞系中,RobusTAD 均能准确识别具有清晰边界的 TAD 结构,且预测的边界与 CTCF ChIP-Seq 信号高度重合。其鉴定的 TAD 大小分布广泛(中位数 170 kb),并能检测到活跃区域(如增强子 - 启动子链接)和抑制区域的差异化结构特征。

4. TAD 功能异质性分析


通过整合 116 种转录因子结合数据,RobusTAD 将 TAD 分为 6 个功能簇:

  • Group 3:边界富集转录活性标记(如 H3K36me3),与增强子 - 启动子(E-P)链接高度相关,部分 TAD 无需 CTCF 即可形成。
  • Groups 1-2:单边界具转录活性,另一边界低活性。
  • Groups 4-6:边界位于抑制性染色质(如 H3K27me3 富集区),Group 4 依赖收敛型 CTCF 结合,边界更清晰。
    该分析揭示了 TAD 形成机制的多样性,如 CTCF 依赖型与转录驱动型结构的共存。

结论与意义


RobusTAD 通过整合参考面板数据,突破了单一样本 Hi-C 数据的局限性,在低覆盖条件下实现了高精度的 TAD 边界识别和层级注释。其动态规划算法确保了全局最优解的获取,而非参数检验设计使其对数据分布不敏感,适用于多种测序深度和细胞类型。研究不仅为解析基因组 3D 结构提供了强大工具,还通过功能聚类揭示了 TAD 与转录因子、染色质状态的关联,为探索基因调控网络和疾病相关的染色质异常奠定了基础。尽管存在计算耗时和参考面板利用效率的局限,RobusTAD 仍为后续基于大数据的基因组结构研究开辟了新路径,有望推动从染色质构象到功能机制的跨尺度研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号