单细胞染色质可及性分析新方法 scAGDE:解锁多任务下的表观遗传调控密码

《Nature Communications》:Topological identification and interpretation for single-cell epigenetic regulation elucidation in multi-tasks using scAGDE

【字体: 时间:2025年02月17日 来源:Nature Communications

编辑推荐:

  本文介绍了一种基于单细胞染色质可及性模型的深度图表示学习方法 scAGDE。该方法能有效处理单细胞 ATAC-seq(scATAC-seq)数据的稀疏性和高维性问题,在细胞聚类、关键标记识别等多方面表现优异,为研究表观遗传调控提供了有力工具。

### 研究背景
基因表达受基因组中可及染色质区域的 DNA 调控元件影响,单细胞转座酶可及染色质测序技术(scATAC-seq)能探索染色质可及性景观,助力单细胞水平的表观遗传调控研究。但 scATAC-seq 数据存在高维、稀疏等问题,现有分析方法难以有效处理,因此急需更强大的分析工具。

scAGDE 方法概述


scAGDE 旨在通过学习低维拓扑嵌入表示,革新高维稀疏 scATAC-seq 数据分析。它主要由基于染色质可及性的自动编码器和图嵌入学习过程组成。该自动编码器能学习原始数据矩阵的潜在表示,选择重要峰作为细胞特征并构建细胞图。图卷积网络(GCN)作为编码器,结合细胞图信息提取关键信息,再通过双解码器重构拓扑和可及性信息,并利用双聚类优化目标提升聚类效果。

scAGDE 的性能评估


  1. 模拟数据表现:在模拟的 scATAC-seq 数据集上,scAGDE 的聚类性能卓越。不同测序深度、噪声水平和 dropout 率实验显示,其归一化互信息(NMI)、调整兰德指数(ARI)和 F1 分数等指标均优于其他 11 种方法,展现出对数据变化的高适应性。
  2. 真实数据表现:在多个真实世界的 scATAC-seq 数据集上,scAGDE 同样表现出色。其在聚类准确性、生物保护质量评估指标上领先,能有效区分复杂数据集的细胞亚群,且运行时间和内存使用合理,适用于大规模数据分析。
  3. 降维和可视化能力:与常用降维工具相比,scAGDE 在降维和可视化方面表现更优。其平均轮廓宽度(ASW)、Calinski-Harabasz 指数(CHI)等指标突出,能清晰区分细胞类型,有效揭示细胞间关系。
  4. 消融研究和超参数选择:通过消融实验评估 scAGDE 各组件有效性,发现基于染色质可及性的自动编码器构建的细胞图、伯努利解码器和 GNNs 对其性能至关重要。确定了如邻居节点数量、GCN 层数等超参数的最优设置。

scAGDE 在关键功能研究中的应用


  1. 增强子区域发现:scAGDE 能基于峰重要性分数筛选峰,所选峰多位于内含子和远端基因间区域,与增强子相关。在免疫细胞中,它揭示了与关键基因如CTLA4CD8A相关的潜在增强子,为理解转录调控机制提供线索。
  2. 潜在开放位点恢复:scAGDE 的伯努利分布解码器可恢复染色质开放位点的潜在信号,减少噪声。在小鼠前脑数据集上,其恢复性能优于其他方法,能增强细胞类型特异性信号识别,发现更多差异可及区域(DARs)和相关转录因子结合基序。
  3. 神经元功能多样性揭示:应用于人类大脑数据集时,scAGDE 成功注释多种神经元和神经胶质细胞类型,识别出不同细胞类型的顺式调控元件(CREs)。在谷氨酸能神经元中,它发现了细微的功能多样性和调控机制差异,为研究大脑神经元的复杂性提供了新视角。

讨论


scAGDE 是一种高效的 scATAC-seq 数据分析框架,在聚类、降维、数据可视化和调控元件识别等方面表现出色。不过,它也存在一些局限性,如处理大规模数据集时的可扩展性问题、处理高度稀疏数据的挑战以及参数敏感性等。未来可通过整合多组学数据、改进神经网络架构等方式进一步优化 scAGDE,提升其在基因组研究中的应用潜力。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号