基于对比学习的染色质结构域注释方法CDACHIE:整合Hi-C与表观基因组数据揭示染色质功能组织

【字体: 时间:2025年08月23日 来源:Bioinformatics 5.4

编辑推荐:

  本研究针对染色质结构域注释中Hi-C与表观基因组数据整合不足的问题,开发了基于对比学习的CDACHIE方法。通过双向编码器生成对齐的嵌入向量,结合K-means聚类识别6类功能域,在复制时序、CTCF/RNAP II ChIA-PET等评估中优于HMM_combined和GMM_GBR方法,为解析染色质三维结构与功能关联提供了新工具。

  

染色质在细胞核内并非随机分布,而是形成高度有序的三维结构,这种结构与基因调控密切相关。早期研究主要通过组蛋白修饰(histone modifications)和DNA甲基化等表观遗传标记来注释染色质功能域,如ChromHMM和Segway等方法。然而,这些一维(1D)分析方法无法捕捉染色质空间构象的重要信息。随着Hi-C技术的出现,科学家们发现了染色质的层级三维(3D)结构——A/B区室(compartments)、拓扑关联域(TADs)和染色质环(loops)。这些结构特征与基因转录活性存在显著关联,但如何将3D结构信息与1D表观遗传特征有效整合,成为领域内亟待解决的关键问题。

现有整合方法如HMM_combined和GMM_GBR通常简单拼接两类数据,忽略了它们之间的深层语义关联。此外,Hi-C数据由于分辨率和噪音限制,在100kb以下尺度难以提供可靠信息,而表观遗传数据可达5-100kb分辨率,这种"分辨率鸿沟"进一步增加了整合难度。为此,日本九州大学的Asato Yoshinaga和Osamu Maruyama团队在《Bioinformatics》发表了CDACHIE方法,通过对比学习(contrastive learning)实现两类数据的语义对齐,为染色质功能注释提供了新思路。

研究采用LINE算法处理GM12878和K562细胞系的Hi-C数据生成8维嵌入向量,同时整合12种表观遗传信号(包括H3K27ac、H3K4me3等组蛋白修饰)。通过结构编码器和功能编码器分别处理两类数据,使用双向InfoNCE损失函数优化嵌入空间对齐,最终对拼接后的向量进行K-means聚类获得6类染色质域。

3.1 CDACHIE性能优势

在GM12878细胞系中,CDACHIE在复制时序解释方差(RT VE)达0.61,显著高于HMM_combined(0.55)和GMM_GBR(0.48);CTCF ChIA-PET环的观测/预期比(O/E)为2.15,优于对照方法的1.82。K562细胞系验证显示相似趋势,证实方法跨细胞系的稳健性。

3.2 染色质域特征解析

C1域富集H3K27ac等活性标记,对应Hi-C的A1/A2区室,具有最高基因密度(图7)。C2域虽转录活跃但基因密度较低,部分覆盖Hi-C的B4区室,展现独特的H3K9me3/H3K36me3双重标记模式(图5)。C3域与B1区室对应,显示H3K27me3富集的兼性异染色质特征。

3.4 与经典注释系统比较

CDACHIE的C1域整合了Hi-C的A1/A2区室和Segway-GBR的BRD/SPC域(图6),而C3-C6域分别对应不同的异染色质状态。值得注意的是,CDACHIE将Hi-C中均质的A2区室细分为C1-C3域,揭示了传统方法未能区分的功能亚型。

该研究通过对比学习有效解决了多组学数据整合中的分辨率不匹配问题,其生成的嵌入空间既能保留Hi-C的结构信息,又继承了表观遗传标记的功能特异性。相比简单拼接策略,CDACHIE在保持Hi-C区室核心特征的同时,新增了C2等过渡态域,为理解染色质状态连续变化提供了新视角。方法在CTCF/RNAP II环预测上的优异表现,证实其能有效捕捉染色质空间组织的功能基础。未来可扩展至单细胞多组学数据整合,或结合CRISPR筛选验证预测域的功能重要性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号