胰腺癌非编码基因组研究新突破:增强子区域复发性体细胞突变的功能表征
《Cancer Research Communications》:The Noncoding Mutational Landscape of Pancreatic Cancer Reveals Recurrent Somatic Mutations in Enhancer Regions
Open Access
【字体:
大
中
小
】
时间:2025年10月18日
来源:Cancer Research Communications
编辑推荐:
本研究发现胰腺癌(PDAC)非编码基因组中增强子区域存在独特的突变特征(SBS39富集),通过多区域全基因组测序(WGS)和进化分析揭示化疗可显著增加所有基因组区域(编码区/启动子/增强子/非编码-NOS)的突变负荷,但突变比例保持稳定。关键发现包括:在人类-小鼠基因组保守的增强子区域中,复发性突变影响KLF5、TP63等胰腺发育相关转录因子,并通过RNA测序(RNA-seq)证实其可导致靶基因表达失调(多为表达缺失)。该研究为胰腺癌非编码驱动机制提供了新的进化视角和功能证据。
尽管胰腺导管腺癌(PDAC)的编码基因组已被详细表征,但其非编码基因组的特征仍相对未被探索。本研究利用全基因组测序(WGS)技术,在两个独特的患者队列中研究了编码和非编码基因组(启动子、增强子和非编码-非增强子区域)。研究发现,在所有四个基因组区域中,经过治疗的癌症比未经治疗的癌症具有显著更高的突变负荷。然而,尽管存在治疗诱导的遗传瓶颈,每个区域的突变相对比例仍保持不变。与其他非编码区域相比,增强子的突变数/Mb较低。增强子还具有独特的突变特征,其中SBS39富集。根据预测的人类和小鼠基因组同源区域的重叠情况,将增强子序列分为保守和非保守区域,并对保守区域进行复发性体细胞突变的筛选。研究发现,保守增强子区域中的复发性体细胞突变在很大程度上与已知在胰腺发育和癌症中起作用的转录因子相关,包括KLF5和TP63。基于RNA测序数据的转录表达分析显示,与没有增强子突变的癌症相比,具有增强子突变的癌症表现出显著不同的表达水平,最常见的是表达缺失,这表明了其功能性影响。这些发现扩展了我们对胰腺癌非编码基因组的认识,并指出了保守增强子突变在胰腺癌中未被探索的作用。
尽管有大量关于胰腺导管腺癌(PDAC)遗传学的数据,但这种肿瘤类型的完整遗传特征谱仍有待发现。迄今为止,大规模全外显子组测序研究揭示了PDAC的复发性基因组特征,这些特征针对特定数量的核心通路。PDAC中的高频驱动基因突变包括KRAS、TP53、CDKN2A和SMAD4,它们在胰腺癌发生过程中的克隆扩张中起主要作用,并影响转移倾向。随后的亚克隆遗传事件对于肿瘤进展和转移也至关重要,例如cMYC或GATA6的拷贝数增加。
新兴数据表明非编码基因组在癌症中也发挥作用。例如,长散在核元件1(LINE-1)活性增加与多种肿瘤类型相关,可能有助于已知驱动基因的体细胞结构变异。泛癌全基因组分析联盟对来自27种肿瘤类型的2,583个全基因组进行的全面重新分析也发现了非编码基因组的几个新的复发性体细胞改变。这些包括BRD4中的复发性微缺失、NFKBIZ和TOB1的3′区域点突变、TP53和MTG2的5′非翻译区和启动子点突变,以及影响AKR1C基因座的染色体10p15的结构重排。特别是在PDAC中,Feigin及其同事发现启动子区域的突变具有影响,特别是与转录调控相关基因的顺式调控区域。专门关注增强子突变的研究较少,尽管有越来越多的证据表明增强子区域的突变可能通过转录因子动力学在转录变化中发挥重要作用。在某些肿瘤类型中,如膀胱癌和乳腺癌,增强子突变被认为是真正的驱动突变,这一观察结果也得到了泛癌分析的支持。
总的来说,虽然非编码基因组似乎在癌症中普遍起作用,但这些改变比影响编码基因组的改变要少得多。此外,组织特异性在识别复发性非编码体细胞改变中起作用;因此,泛癌研究中关于非编码改变的报道可能低估了特定肿瘤类型特有的那些改变。更不了解的是非编码改变相对于实体瘤克隆进展的积累时间。为了解决PDAC在这一知识上的空白,我们进行了多区域全基因组测序(WGS)和克隆分析,以阐明非编码区域相对于编码基因组的特征性特征,包括它们与其他已知PDAC特征的进化关系。
使用了所有组织来源患者的书面知情同意书。该研究根据公认的伦理准则进行,并获得了约翰霍普金斯大学医学院和纪念斯隆凯特琳癌症中心(MSKCC)机构审查委员会的批准。在MSKCC进行的所有动物研究均获得了机构动物护理和使用委员会的批准。
使用了来自MSKCC“Last Wish Program”的六个PDAC研究尸检样本(MPAM01-06)。从冷冻切片上切下组织切片并进行审查,以确定肿瘤细胞含量至少为20%且组织质量保存完好的样本。对正常样本进行审查以确认没有污染癌细胞。符合这些标准的样本在提取基因组DNA之前,从未染色的连续切片上进行宏观解剖以富集肿瘤纯度。本研究还包括了先前通过约翰霍普金斯大学快速尸检计划分析的四个未经治疗的PDAC病例。
患者PAM01-04的WGS原始数据先前已生成。从患者MPAM01-06的所有组织中提取基因组DNA。DNA定量、文库制备和WGS在MSK综合基因组学操作中心进行,体细胞变异的生物信息学分析由MSK生物信息学核心完成。MPAM01-06的测序、比对和分析按照PAM01-04的描述进行。简而言之,使用Illumina HiSeq 2000、HiSeq 2500、HiSeq 4000或NovaSeq 6000平台,目标覆盖度对于肿瘤样本为60X或80X,对于正常样本为60X或30X。对产生的测序读数进行计算机分析,以评估质量、覆盖度以及使用Burrows-Wheeler Aligner(BWA)与人类参考基因组的比对情况。使用Picard套件和GATK版本3.1完成读数去重复、碱基质量重新校准和多重序列重新比对后,使用MuTect版本1.1.6和HaplotypeCaller版本2.4检测体细胞单核苷酸变异(SNV)/插入-缺失。从系统发育分析中排除了低质量或比对不良的读数。在整个队列中,肿瘤样本的中位覆盖度为76.5×,正常样本为47.5×。
Filtering and annotation of variants
对所有患者,使用以下标准过滤体细胞变异:患者匹配的正常样本覆盖度≥10个读数,患者匹配的正常样本中的变异计数≤2,患者匹配的正常样本变异频率<0.02,肿瘤突变等位基因读数≥10,且至少在一個肿瘤样本中肿瘤变异等位基因频率≥0.05,条件是所有样本中肿瘤覆盖度≥20个读数。编码变异经过进一步的生物信息学注释,以确定致病性和来自全球健康人群的种系等位基因频率。通过FACETs推断拷贝数改变和全基因组复制。
RNA提取和测序按最近描述的方法进行。简而言之,使用TRIzol提取总RNA,然后使用RNeasy Plus Mini Kit。使用TruSeq Stranded Total RNA LT Kit进行文库制备后,对样本进行条形码编码,并在HiSeq 4000上运行,使用HiSeq 3000/4000 SBS Kit进行100 bp/100 bp或125/125 bp双末端测序。输出数据(FASTQ文件)使用rnaStar比对软件映射到目标基因组,并使用PICARD工具对输出的SAM文件进行后处理,以添加读数组并将其转换为压缩的BAM格式。使用HTSeq确定来自比对读数的表达计数矩阵,并使用R/Bioconductor包DESeq2处理HTSeq生成的原始计数矩阵,以对样本组之间的整个数据集进行标准化。将Log2转换后的数据用作下游分析的标准化表达量。
The Cancer Genome Atlas data set
从数据协调中心数据发布/国际癌症基因组联盟(ICGC)数据门户获取癌症基因组图谱(TCGA)胰腺癌WGS数据。从MuTect获取突变调用,共识别出2,271,144个独特突变。使用vcf2maf工具对这些突变重新注释,并将新注释的文件作为下游分析的输入。通过FireBrowse下载TCGA胰腺癌RNA测序(RNA-seq)数据。从下载的RNA-seq数据计算每百万转录本数(TPM)。TPM用于基因集富集分析,并将log2转换后的TPM值用作相对mRNA表达量。
Pancreatic cancer enhancer regions and enhancer mutations
增强子区域先前基于H3K27ac(激活的增强子组蛋白标记)染色质免疫沉淀测序(ChIP-seq)数据定义。根据峰值数量(>10,000)并结合集成基因组浏览器(IGV)上的手动审查,从ChIP atlas中选择了23个胰腺癌H3K27ac ChIP数据集。将所有数据合并并使用MACS2进行分析,识别得分超过50的区域。使用GREAT将这些区域注释为最近和第二近的基因。包括位于转录起始位点(TSS)2至50 kb之间的区域,而排除距离TSS超过50 kb或小于2 kb的区域。总体而言,本研究将62,015个区域纳入作为“胰腺癌增强子区域”。使用Galaxy bedtools ClosestBed,将与PDAC增强子区域重叠的体细胞变异定义为增强子突变。根据先前的研究,使用微滴数字PCR(ddPCR)确认了代表性增强子突变。
Mutational signature analysis
使用Palimpsest进行突变特征分析。将每个样本在编码、增强子、启动子或非编码-非增强子区域(以下简称非编码-NOS)中识别的所有突变用作输入。将每个样本每个类别中的特征比例用作聚类分析的输入,以识别增强子区域突变特征的特征。使用Wilcoxon符号秩检验来识别组间的特征性特征。使用Benjamini、Krieger和Yekutieli的FDR方法进行突变特征t检验,以识别克隆与亚克隆以及治疗和未治疗组之间的特征性特征。
使用Treeomics 1.7.9为每组样本推导系统发育。每个系统发育以匹配患者的正常样本为根,叶子代表肿瘤样本。Treeomics使用贝叶斯推理模型来解释容易出错的测序和变化的肿瘤细胞含量,以计算特定变异存在或不存在的概率。全局最优树基于混合整数线性规划。所有进化分析均基于WGS。存在于PDAC所有分析样本中的体细胞改变被认为是克隆性的,而存在于样本子集或单个样本中的则被认为是亚克隆性的。
Conserved pancreatic cancer enhancer regions and gene annotation
从先前的ENCODE研究中获得了人类和小鼠之间的保守增强子区域。将与ENCODE保守增强子区域有任何重叠的胰腺癌增强子区域定义为“保守胰腺癌增强子区域”。在62,015个胰腺癌增强子区域中,有8,966个区域(14.5%)符合此标准。使用GREAT将每个保守增强子区域以及包含在这些区域中的突变(即保守增强子突变)分配给500 kb内的第一和第二最近基因。
Conserved enhancer mutation and gene expression
使用先前为尸检队列和ICGC队列生成的RNA-seq数据,比较具有和不具有保守增强子突变的样本之间的基因表达。从该分析中移除了具有非同义编码突变的样本,以避免对转录本稳定性的潜在影响。使用Wilcoxon符号秩检验比较每个基因的基因表达变化。为了确认该分析的可靠性,对于每个基因,使用保守的胰腺癌增强子区域作为参考,在样本中随机打乱突变类别。使用Wilcox检验比较表达水平。该过程重复10,000次以生成参考P值的分布。然后将原始P值与这些参考值进行比较,并计算小于原始P值的参考P值的比例,从而产生更新后的调整后P值。将尸检和/或TCGA队列中具有显著上调或下调变化的基因用于通过Enrichr进行基因本体论分析。
Allele-specific expression analysis
使用cis-X进行等位基因特异性表达(ASE)分析,遵循原始出版物中描述的方法。简而言之,我们使用cis-X计算框架组织来自PDAC样本的多模式基因组数据进行整合分析。输入数据包括由Control-FREEC生成的拷贝数变异谱、由Strelka2调用的SNV和插入/缺失、使用STAR和featureCounts量化为FPKM值的RNA表达以及WGS比对文件。使用具有默认参数的cis-X Singularity容器进行ASE分析。
Motif analysis on enhancer sequences
使用原始突变汇总表(来自尸检和ICGC队列)来提取在保守胰腺癌增强子区域突变和野生型变异之间显示显著表达差异的基因。然后从原始突变数据中提取突变位置,并将其映射到上述原始保守增强子区域。使用Hypergeometric Optimization of Motif EnRichment中的findGenomeMotif.pl分析这些保守增强子区域,以识别每个区域中的已知基序以及突变在这些基序内发生的程度。
Statistics and reproducibility
使用GraphPad Prism和/或R进行所有统计分析和绘图。通过双侧χ2检验比较参数分布,对于样本量<5的情况使用Fisher精确检验进行校正。使用Mann-Whitney U检验(双侧)比较非参数分布,对于列联表分析,使用双侧Fisher精确检验。使用Kaplan-Meier方法进行总生存分析,并通过对数秩检验比较曲线。如果P值小于0.05,则认为具有统计学显著性。基因集富集分析使用FDR q值。
未使用统计方法来预先确定样本量。只要文库和/或测序质量通过我们的标准,分析中就不会排除任何数据。实验未随机化。除组织学切片审查外,研究人员在实验和结果评估期间对分配不知情。
Clinicopathologic and genetic features of the patient cohort
本队列的临床特征总结在补充表中。10名患者中有8名在临床IV期诊断为胰腺癌,两名为IIB期(可手术切除)。后两名患者接受了以治愈为目的的胰十二指肠切除术,但随后出现了复发性转移性疾病。四名患者(PAM01-04)因诊断时身体状况差而未接受治疗,生存期短(范围0.5-10个月),而六名患者(MPAM01-06)接受了化疗,生存期相对较长(范围9-49个月)。尸检时,所有10名患者至少在一个器官中经病理学确认有转移。10例中有9例为导管腺癌,1例(MPAM02)具有未分化癌伴破骨细胞样巨细胞的特征。两例导管腺癌,PAM02和MPAM06,显示局灶鳞状分化,第三例(PAM01)具有神经内分泌特征。
本研究共使用了来自这10名患者的86个PDAC基因组和10个正常基因组(中位数每位患者10个样本;范围4-11)。我们鉴定出每个样本中位数为15,312个体细胞突变(范围2,972-58,657),对应于每个样本中位数为11,671个SNV(范围2,329-37,225)、1,903个小插入(213-7,889)和2,664个小缺失(430-28,224)。检测到KRAS(10/10, 100%)、TP53(7/10, 73%)、CDKN2A(4/10, 40%)、SMAD4(4/10, 40%)、ATM(2/10, 20%)、ARID1A(2/10, 20%)、ARID2(1/10, 10%)和PBRM1(1/10, 10%)的编码驱动基因突变或拷贝数变化,与先前大型队列研究的结果一致。为了理解治疗与突变负荷之间的关系,我们根据接受标准护理化疗的临床病史独立评估病例。未经治疗的PDAC的突变数量显著低于经过治疗的PDAC(每个样本中位数7,543个突变,范围2,783-12,415 vs. 每个样本中位数31,914,范围8,172-57,585;P < 0.0001,Mann-Whitney U检验,双侧)。
为每位患者推导了样本系统发育,以确定体细胞变异发生的相对进化时间。常见的驱动基因在所有患者中均为主干起源。三名PDAC患者,均来自接受治疗的患者(MPAM02、MPAM05和MAPM06),在MUC6、B2M或DNMT3A中存在亚克隆驱动基因突变。这些亚克隆驱动基因改变中的每一个都是该患者分析的单个样本所特有的,最常见于原发肿瘤内,提示治疗诱导的遗传瓶颈。与这一解释一致,接受治疗的PDAC比未经治疗的PDAC具有更长的分支(外部和内部分支的组合;均P < 0.0001;Mann-Whitney U检验,双侧)。在10例中的6例中,至少一个原发肿瘤样本与转移瘤关系最密切,表明原发肿瘤内存在亚克隆异质性和转移亚克隆的形成,如先前所述。总的来说,这些发现表明该PDAC队列在驱动基因方面表现出预期的克隆动力学,并为解释晚期PDAC中的非编码遗传改变提供了基线。
Mutational characteristics of the PDAC genome
将所有突变细分为发生在编码区、启动子、增强子或非编码-NOS区域的突变。总体而言,增强子区域的突变数最少(中位数73个突变,范围14-198),而非编码-NOS区域最多(中位数11,312个突变,范围2,651-54,532)。当我们考虑每百万碱基的突变频率(mut/Mb)时,我们发现编码区、启动子、增强子和非编码-NOS区域的中位数分别为2.13(范围0.38-7.37)、4.38(0.56-16.71)、3.19(0.61-8.64)和3.94(0.93-19.03)个突变。为了确定接受治疗的PDAC与未经治疗的PDAC的差异程度,我们计算了每组中每个基因组区域的mut/Mb。在未经治疗的PDAC中,我们发现编码区、启动子、增强子和非编码-NOS区域的mut/Mb中位数分别为1.30(范围0.39-2.06)、1.86(范围0.56-3.33)、1.52(范围0.61-3.05)和2.48(范围0.93-4.07)。在接受治疗的PDAC中,每个区域的mut/Mb中位数至少高出三倍,编码区为3.95(范围1.49-7.37),启动子为8.67(范围3.10-16.71),增强子为4.05(范围2.14-8.64),非编码-NOS区域为10.56(范围2.63-19.03)。接受治疗的PDAC与未经治疗的PDAC突变频率的成对比较表明,与未经治疗的PDAC相比,基因组所有区域的突变负荷均显著更大(P < 0.0001,Mann-Whitney检验)。
我们接下来确定了突变积累的相对时间发生在每个PDAC进化生命史中的程度。在未经治疗的PDAC中,我们发现编码区、启动子、增强子和非编码NOS区域的克隆mut/Mb中位数分别为1.10(范围0.35-1.45)、1.54(范围0.55-2.63)、1.18(范围0.61-2.44)和2.00(范围0.91-3.35),亚克隆mut/Mb中位数分别为0.20(范围0-0.64)、0.38(范围0-0.84)、0.26(范围0-0.70)和0.50(范围0.003-0.99),表明大多数突变发生在最近共同祖先形成之前。我们在接受治疗的PDAC中发现了类似的关系,编码区、启动子、增强子和非编码NOS区域的克隆mut/Mb中位数分别为2.05(范围1.37-5.52)、4.91(范围2.89-14.07)、2.44(范围1.83-6.33)和5.31(范围2.41-15.38),亚克隆mut/Mb中位数分别为1.21(范围0.03-2.29)、2.30(范围0.03-4.58)、1.35(范围0.04-3.32)和2.90(范围0.01-5.84)。总的来说,这些发现揭示了非编码基因组的两个特征:第一,大多数突变发生在最近共同祖先形成之前;第二,尽管存在治疗诱导的遗传瓶颈,编码区、启动子、增强子和非编码-NOS区域的突变比例保持不变。
Mutational signatures in PDAC
为了识别每个基因组区域突变特征的一般特征,我们使用了Palimpsest,并基于每个队列的突变比例创建了热图。基于组合突变特征的无监督聚类分析识别出两个组,在这两个组内,四个基因组区域的分布是非随机的。具体而言,增强子区域表现出与基因组其他区域不同的特征特征。这伴随着SBS39特征的显著富集(P = 0.0029,Friedman检验)以及SBS1(P < 0.001,Friedman检验)、SBS8(P < 0.001)、SBS40(P < 0.001)和SBS41(P < 0.001)特征在增强子区域的减少。为了解释样本量效应(即非编码-NOS的改变计数 >> 编码 ≈ 增强子),我们使用相同数量的突变(编码计数)对所有类别的每个案例进行了子抽样分析,并确认聚类结果相似。基于突变特征的主成分(PC)分析也将增强子改变识别为在第一个主成分(PC1)中是不同的。
我们接下来确定了这些突变特征与PDAC其他特征(如突变克隆性或治疗)相关的程度。SBS1(一种时钟样突变特征)和SBS18(与活性氧相关)是仅有的两个在克隆突变部分比在亚克隆进化过程中出现的突变中更普遍的特征。当细分为克隆性或亚克隆性时,增强子改变在PC1中仍然保持 distinct。SBS1和SBS5(另一种与年龄相关的特征)在未经治疗的病例中也显著更普遍(Wilcoxon符号秩检验P值=0.019和0.026),这与治疗期间或由于治疗本身富集了替代突变过程一致。
总的来说,这些发现表明突变过程在这四个基因组区域中以环境依赖的方式有所不同,其中增强子突变具有与其他区域相比最独特的特征。
Orthogonal validation in the ICGC dataset
为了确定我们中等规模尸检队列中的发现在多大程度上具有普遍性,我们评估了来自ICGC的259个PDAC的突变负荷和特征。我们鉴定出每个样本中位数为5,899个体细胞突变(范围1,040-94,812),对应于每个样本中位数为5,376个SNV(范围887-91,013)、270个插入(范围2-10,814)和225个缺失(范围11-28,315)。当将这些突变分类为发生在编码区、启动子、增强子或非编码-NOS区域时,每个区域分别鉴定出中位数63个(范围8-1,636)、189个(38-3,653)、27个(4-656)和5,618个(988-89,569)突变。mut/Mb显示编码区、启动子、增强子和非编码-NOS区域的中位数分别为0.50(范围0.064-13)、1.54(0.31-29.7)、1.18(范围0.18-28.6)和1.96(0.35-31.3)个突变。基于突变特征的PC分析也将增强子改变识别为在PC1中是独特的,尽管程度不如尸检队列中明显。最后,我们确定了最能区分每个基因组区域的突变特征。与尸检队列相似,我们发现SBS39在增强子区域富集,而SBS1、SBS5、SBS8和SBS40在增强子区域中代表性不足。总的来说,我们得出结论,这个大型早期PDAC队列的非编码基因组特征与尸检队列中观察到的相似。
Mutations in conserved enhancer regions in PDAC
启动子区域的复发性突变先前已有报道。因此,并且由于本研究中增强子的独特特征,我们专注于增强子突变在PDAC中复发的程度。从物种进化的角度来看,增强子区域分为两类:保守和非保守区域。因此,我们依赖先前生成的ChIP-seq数据,该数据基于H3K27激活的组蛋白标记定义了PDAC增强子区域,并根据预测的小鼠和人类基因组同源增强子的重叠将这些区域分为保守和非保守类别。该策略识别出8,966个保守增强子区域。在ICGC和尸检队列中,保守增强子区域的突变频率均低于非保守增强子区域。
我们注释了这些保守增强子区域,以识别它们最近和第二近的基因。在这5,618个基因中,我们专注于那些在其相关的保守增强子区域中发生复发性突变的基因。在尸检队列中,有162个基因在三个或更多独特样本中发生突变,其中32个基因在两名或更多患者中受到影响。通过ddPCR确认和验证了代表性的保守增强子突变。在ICGC队列中,我们发现了135个基因,其中三名或更多患者发生突变,其中18个基因在五名或更多患者中复发性突变。使用这些阈值(三个尸检样本和三个ICGC患者),在两个队列中识别出11个基因,其中几个与癌症生物学或PDAC特别相关。这11个基因编码的蛋白质产物功能包括转录因子或辅助转录因子(MYC、KLF5、FOXQ1、POU5F1B、TP63和LPP)、缺氧反应(EGLN3)、细胞外基质调节(HAS2)和肌动蛋白重塑(SEMA3E)。像DCBLD2和TPRG1这样的基因在癌症中研究较少,尽管后者(TP63调节基因1)进一步暗示了TP63轴。
Gene expression in association with mutated enhancers
保守增强子区域中的体细胞改变并不表明是否可能发生基因表达变化。因此,对每个增强子最近的两个基因的转录表达进行了评估。具体来说,对于每个带有突变的保守增强子,我们比较了同一组织中相关基因的基因表达。对于后续分析,仅在尸检和ICGC队列中考虑了WGS-RNA-seq匹配的样本。
我们在合并的尸检和ICGC队列中识别出92个基因,其基因表达在具有和不具有增强子突变的样本之间存在显著差异。在具有相关增强子突变的样本中,基因表达最常降低。下调的基因再次包括尸检队列中的转录因子KLF5和POU5F1B,或ICGC队列中的ELF3和RUNX1等。TP63也被再次识别,并且显示与增强子突变相关的基因表达降低了10倍以上。相比之下,AXIN2因附近增强子的体细胞突变而表达增加而引人注目。
虽然单个基因为增强子突变所针对的表型提供了一些线索,但我们结合了ICGC和尸检队列中与增强子突变相关的显著表达改变的数据,并进行了基因本体论分析以进一步了解。下调基因高度富集了参与DNA模板转录调控的基因。相比之下,没有发现与上调基因表达相关的通路。
为了确定所识别的复发性增强子突变在多大程度上影响已知或预测的增强子基序区域,我们使用Hypergeometric Optimization of Motif EnRichment来识别相对于野生型序列,在突变的保守增强子区域中特异性富集或缺失的调控元件。根据突变计数(使用三个突变的临界值定义高与低)和基因表达变化(上调与下调)对增强子序列进行分类。先前分析识别的基因均未被识别。