编辑推荐:
推荐
为解决现有顺式调控元件(CREs)识别方法多基于序列、局限于单一类型且缺乏细胞类型特异性等问题,研究人员开发 CREATE 框架。其整合多组学数据,实现多类 CREs 精准分类,揭示调控密码,为基因调控与疾病研究提供新工具。
论文解读
在基因调控的神秘世界里,顺式调控元件(CREs)如增强子、沉默子、启动子和绝缘子等,如同隐形的指挥官,通过复杂的网络调控着基因表达,塑造着细胞的命运与生物体的复杂性状。然而,目前的 CREs 识别方法大多依赖 DNA 序列,且往往聚焦于单一类型(如增强子),难以捕捉细胞类型特异性功能及调控动态,这就像用单目望远镜观察星空,视野狭窄且模糊。例如,沉默子与增强子因表观遗传特征相似难以区分,而实验验证又耗时耗力,亟需一种能整合多维度数据、实现多类别精准识别的计算方法。
为突破这一困境,清华大学(第一作者单位为清华大学自动化系等国内机构)的研究团队开展了深入研究,相关成果发表在《Nature Communications》。他们开发了名为 CREATE(Cis-Regulatory Elements identificAtion via discreTe Embedding)的多模态深度学习框架,旨在通过整合基因组序列、染色质可及性(如 ATAC-seq 数据)和染色质相互作用(如 HiChIP 数据),实现细胞类型特异性 CREs 的全面识别与特征解析。
主要技术方法
研究主要采用以下关键技术:
- Vector Quantized Variational AutoEncoder(VQ-VAE)框架:将多组学数据编码为离散嵌入(discrete embeddings),捕捉 CREs 的离散调控模式。
- 多模态编码器 - 解码器架构:包括序列编码器、染色质可及性编码器、染色质相互作用编码器及整合编码器,实现多源数据的特征提取与融合。
- 10 折交叉验证:在 K562(慢性髓系白血病细胞)和 HepG2(肝癌细胞)等细胞类型中评估模型性能,并与 DeepSEA、DanQ 等基线方法对比。
研究结果
1. CREATE 架构与创新点
CREATE 由四大模块组成:
- 编码器模块:对不同输入数据(如 one-hot 编码的基因组序列、染色质开放得分、染色质环得分)分别处理后整合,生成统一特征表示。
- 向量量化模块:利用动态码本(codebook)将连续隐向量映射为离散嵌入,捕获调控活动的离散模式。
- 解码器模块:从离散嵌入重构原始多组学数据,确保特征保留。
- 分类器:增强不同 CRE 类型的区分度,使同类 CRE 嵌入相似,异类分散。
其创新在于多组学整合(基因组 + 表观组数据)和离散嵌入的可解释性,能定量揭示 CRE 特异性特征谱。
2. 性能评估:超越传统方法
在 K562 和 HepG2 中,CREATE 的 10 折交叉验证结果显著优于基线方法:
- auROC:CREATE 为 0.964±0.002(K562),远超 ES-transition(0.928±0.002)。
- auPRC:CREATE 达 0.848±0.004(K562),较 DeepICSH(0.743±0.003)提升 10.5%。
尤其在沉默子识别中,auPRC 较次优方法提升 13.9%,显示其对难区分元件的解析能力。在 GM12878 和 HeLa-S3 等数据有限的细胞类型中,CREATE 仍表现稳定,证明其泛化性。
3. 多组学数据与离散嵌入的作用
消融实验表明,整合基因组序列 + 染色质可及性 + 染色质相互作用数据时性能最佳,单一数据类型(如仅序列)虽优于基线,但组合数据显著提升分类效果。与基于 VAE 的变体模型(CREATE (VAE))相比,离散嵌入使 auROC 提升约 3%,证明离散表示更能捕捉 CRE 复杂特征。此外,模型对码本大小(K)、分裂量化次数(M)等超参数不敏感,稳定性强。
4. 特征谱解析与生物学意义
通过离散嵌入的 UMAP 可视化,发现启动子、绝缘子和背景区域可有效分离,而沉默子与增强子部分重叠但特征谱存在显著差异。CRE 特异性特征谱显示,每种 CRE 类型富集独特的码本特征,如沉默子富集 MAFA、LHX6 等抑制性转录因子(TF)基序,增强子则富集 H3K9ac、H3K27ac 等激活型组蛋白修饰。通过敲除主要特征码本,发现重构数据中染色质可及性和相互作用信号显著减弱,印证特征谱的生物学功能相关性。
5. 大规模预测与疾病关联
在 K562 和 HepG2 中,CREATE 分别预测出 26,012 个沉默子、29,423 个增强子等。预测 CREs 在组蛋白修饰分布(如 H3K27me3 富集于沉默子)、DNA 甲基化水平、保守性及染色质环(pcHiC)重叠率等方面与真实 CREs 高度一致。此外,预测 CREs 富集疾病相关单核苷酸多态性(SNPs)和表达数量性状位点(eQTLs),尤其在血液和肝脏组织中,显示其与疾病表型的潜在关联。
6. 双功能调控元件(DFREs)鉴定
CREATE 成功识别出在 K562 中为沉默子、在 HepG2 中为增强子的 DFREs(如 2409 个重叠区域)。这些元件具有高保守性、独特甲基化模式及频繁的染色质相互作用,且富集组织特异性 eQTLs,揭示其在不同细胞环境中的功能可塑性。
结论与意义
CREATE 通过多模态深度学习与离散嵌入,首次实现了多类 CREs 的高精度、细胞类型特异性识别,填补了沉默子等未充分研究元件的解析空白。其整合多组学数据的能力,为解析基因调控网络的动态复杂性提供了新范式,尤其在疾病相关 CREs 预测和双功能元件研究中展现潜力。尽管存在数据不平衡等局限,CREATE 仍为构建全面的 CRE 图谱、理解基因调控与疾病机制奠定了基础,有望推动精准医学和发育生物学的发展。