
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nature发布迄今为止最全面的顺式调控元件数据库
【字体: 大 中 小 】 时间:2026年01月16日 来源:AAAS
编辑推荐:
近日,马萨诸塞大学医学院领导的研究团队利用新的ENCODE数据集和增强的计算方法,将基因组中潜在调控元件的数量提升了近三倍。目前,新的数据库包含237万个人类cCRE和96.7万个小鼠cCRE。
哺乳动物基因组中包含数百万个调控元件,这些元件控制着基因表达的复杂模式。此前,ENCODE联盟建立了一个数据库,包含90万个人类和30万个小鼠候选顺式调控元件(cCRE)。
近日,马萨诸塞大学医学院领导的研究团队利用新的ENCODE数据集和增强的计算方法,将基因组中潜在调控元件的数量提升了近三倍。目前,新的数据库包含237万个人类cCRE和96.7万个小鼠cCRE。
这项研究成果于1月7日发表在《Nature》杂志上,为研究调控基因组及其对健康和疾病的影响提供了一份宝贵资源。
这项研究是“DNA元件百科全书(ENCODE)”计划的一部分。ENCODE是一项历时二十年的国际合作项目,分为四个连续的五年阶段,旨在系统地编目人类和小鼠基因组的功能元件。
人类基因组中仅有一小部分编码蛋白质,其余大部分DNA发挥着调控作用。
共同通讯作者、马萨诸塞大学医学院的助理教授Jill Moore解释说:“基因组中存在数百万条短的调控序列,它们作为基因的控制元件,在特定细胞类型、发育阶段或环境条件下开启或关闭基因。这些CRE几乎主导着所有生物过程。”
然而,这些调控元件的现有图谱仍不完整。最新研究利用改进的分析方法和新的外部数据集,将人类基因组中的候选调控位点数量从90万个扩展至237万个,小鼠基因组则从30万个扩展至96.7万个。
“更重要的是,部分元件在不同的细胞和组织类型中选择性激活,包括发育和疾病相关状态,这提供了一份参考图谱,展示了调控DNA元件位于何处以及它们在哪些细胞背景下发挥作用,”Moore解释说。
这项工作的重大突破在于大规模的功能表征。研究团队不再仅凭染色质结构推断调控活性,而是整合了大量高通量检测的数据。他们共利用ENCODE联盟开展的5,712项人类实验和758项小鼠实验的数据,对cCRE数据库进行注释。
研究人员还发现,某些调控元件在一种细胞类型中作为增强子发挥作用,而在另一种细胞类型中则发挥沉默子的作用,具体取决于存在的转录因子组合。这种依赖于背景的双重功能凸显了调控DNA序列在不同细胞之间的灵活性。
扩展后的数据库也为解读与人类性状和疾病相关的非编码DNA序列变异的功能提供了一个强大框架。全基因组关联研究(GWAS)已经鉴定出数万个与常见疾病(如心脏病、糖尿病和精神分裂症)相关的变异,但其中大多数变异位于蛋白质编码基因之外。
通过将GWAS信号叠加到潜在调控元件图谱上,并结合多个高通量分析的结果,研究人员可将这些调控元件与其可能的目标基因关联起来。
研究人员将这种策略应用在红细胞上,发现与性状相关的变异位于KLF1的调控区域,该基因是红细胞发育的核心开关。这些结果表明KLF1很可能是主基因,该位点的遗传变异通过它来影响红细胞性状,而其他基因可能发挥次要作用。
“扩展后的ENCODE cCRE数据库为鉴定、表征和解读调控元件提供了全面而灵活的资源。它为研究不同生物学背景下的转录调控提供了基本框架,” 作者写道。未来,这些资源将有助于我们了解基因调控如何影响健康和疾病。