
-
生物通官微
陪你抓住生命科技
跳动的脉搏
国际人类表观基因组联盟(International Human Epigenome Consortium)对所有表观基因组进行的泛细胞类型连续染色质状态注释
《Genome Biology》:Pan-cell type continuous chromatin state annotation of all epigenomes from the International Human Epigenome Consortium
【字体: 大 中 小 】 时间:2026年06月12日 来源:Genome Biology 9.4
编辑推荐:
摘要背景国际人类表观基因组联盟已经生成了数千个数据集,这些数据集用于分析转录因子结合、组蛋白修饰以及DNA的可访问性。现有的分割和注释方法通常会产生特定于细胞类型的调控图谱,但随着分析的细胞类型数量不断增加,这些图谱的维护和应用变得越来越困难。在这里,我们应用了epigenome
国际人类表观基因组联盟已经生成了数千个数据集,这些数据集用于分析转录因子结合、组蛋白修饰以及DNA的可访问性。现有的分割和注释方法通常会产生特定于细胞类型的调控图谱,但随着分析的细胞类型数量不断增加,这些图谱的维护和应用变得越来越困难。在这里,我们应用了epigenome-ssm这一连续状态空间建模框架,来生成一个统一且易于解释的染色质状态表示,涵盖了数千个人类表观基因组。
利用来自1,698个表观基因组的9,539条组蛋白修饰信号轨迹,epigenome-ssm生成了33个连续的染色质状态特征,这些特征能够简洁地捕捉不同细胞类型中的调控程序。这些特征不仅区分了启动子、增强子、转录和异染色质等典型结构,还编码了特定于细胞类型的调控模式。与其它泛细胞类型的注释方法相比,尽管使用的维度更少,但这些连续特征在基因表达、增强子活性和进化保守性方面的预测性能更优或相当。该模型有效地捕捉了广泛的以及特定于谱系的调控程序,将染色质状态与基因表达和功能注释联系起来。此外,衍生出的保守性相关活性评分(SSM-CAAS)突出了富含疾病相关变异的基因组区域,显示出其在解释非编码变异方面的实用性。
连续的泛细胞类型染色质状态特征为人类表观基因组提供了一种紧凑、表达性强且生物学信息丰富的表示方式。这一框架改进了大规模表观基因组数据的整合和解释能力,能够准确预测基因组功能,并有助于识别与疾病相关的调控元件。由此产生的资源为下游的基因调控和遗传变异分析提供了可扩展的基础。
国际人类表观基因组联盟已经生成了数千个数据集,这些数据集用于分析转录因子结合、组蛋白修饰以及DNA的可访问性。现有的分割和注释方法通常会产生特定于细胞类型的调控图谱,但随着分析的细胞类型数量不断增加,这些图谱的维护和应用变得越来越困难。在这里,我们应用了epigenome-ssm这一连续状态空间建模框架,来生成一个统一且易于解释的染色质状态表示,涵盖了数千个人类表观基因组。
利用来自1,698个表观基因组的9,539条组蛋白修饰信号轨迹,epigenome-ssm生成了33个连续的染色质状态特征,这些特征能够简洁地捕捉不同细胞类型中的调控程序。这些特征不仅区分了启动子、增强子、转录和异染色质等典型结构,还编码了特定于细胞类型的调控模式。与其它泛细胞类型的注释方法相比,尽管使用的维度更少,但这些连续特征在基因表达、增强子活性和进化保守性方面的预测性能更优或相当。该模型有效地捕捉了广泛的以及特定于谱系的调控程序,将染色质状态与基因表达和功能注释联系起来。此外,衍生出的保守性相关活性评分(SSM-CAAS)突出了富含疾病相关变异的基因组区域,显示出其在解释非编码变异方面的实用性。
连续的泛细胞类型染色质状态特征为人类表观基因组提供了一种紧凑、表达性强且生物学信息丰富的表示方式。这一框架改进了大规模表观基因组数据的整合和解释能力,能够准确预测基因组功能,并有助于识别与疾病相关的调控元件。由此产生的资源为下游的基因调控和遗传变异分析提供了可扩展的基础。