《PLOS Genetics》:Functional interrogation of candidate cis-regulatory elements at the LDLR locus
编辑推荐:
摘要
LDLR基因表达的调控在动脉粥样硬化性疾病(如心肌梗死和脑卒中)的发生发展中起着重要作用。尽管固醇反应元件(SREs)对LDLR的调控已得到充分表征,但LDLR基因座其他非编码区域的功能重要性仍不明确。本研究开发并应用了一种高通量CRISPR筛选技术,在
摘要
LDLR基因表达的调控在动脉粥样硬化性疾病(如心肌梗死和脑卒中)的发生发展中起着重要作用。尽管固醇反应元件(SREs)对LDLR的调控已得到充分表征,但LDLR基因座其他非编码区域的功能重要性仍不明确。本研究开发并应用了一种高通量CRISPR筛选技术,在天然基因组背景下测试了候选LDLR顺式调控元件(CREs)的功能重要性。研究人员共发现25个离散区域对LDLR表达表现出显著影响。针对其中一个位于第一内含子且具有特别强活性的区域,研究人员通过验证其破坏会减少内源性LDLR表达,并将其插入最小启动子上游可增强报告基因表达,从而确认了其增强子活性。随后,研究人员应用大规模并行报告基因检测(MPRA)将这一区域的增强子活性精细定位到一个129 bp的区间。该区间在脊椎动物中高度保守,表现出增强子活性的生化特征,富集了转录因子结合基序,并包含一个常见遗传变异(rs57217136),该变异已被全基因组关联研究(GWAS)证实与人类低密度脂蛋白胆固醇水平相关。总之,这些发现展示了CRISPR筛选在探究候选CREs方面的强大能力,并阐明了LDLR基因座非编码序列的功能图谱。
研究背景与意义
肝脏中低密度脂蛋白受体(LDLR)的表达量是决定个体终生动脉粥样硬化性心血管疾病(ASCVD)风险的关键因素。虽然SREBP转录因子及其在LDLR基因启动子上的固醇反应元件(SREs)的结合已被确立为核心调控机制,但真核基因的调控是一个复杂过程,常涉及启动子与非编码DNA中的顺式调控元件(CREs)之间的相互作用。人类基因组中估计有数十万至数百万个CREs,而LDLR基因座除了已知的SREs外,还存在多个暗示其受复杂调控的证据:不同含SREs的基因表达差异巨大;存在不依赖固醇机制调节LDLR的其他转录因子;全基因组关联研究(GWAS)发现了位于LDLR基因座附近但与SREs不直接重叠的非编码常见遗传变异;以及基因组谱分析鉴定出了不共定位SREs的候选CREs。因此,解析LDLR基因座非编码区域的功能景观对于深入理解LDLR调控及ASCVD发病机制具有重要意义。此前,研究人员已成功建立了针对编码基因组的高通量CRISPR筛选平台,本研究则将该策略延伸至非编码基因组,旨在系统性地鉴定LDLR基因座的功能性CREs。
关键技术方法
本研究主要采用了以下关键技术:首先,基于多族群GWAS数据(超过160万个体)、ENCODE项目的表观遗传数据(包括ATAC-seq、DNase-seq、H3K27ac ChIP-seq)以及进化保守性分析,设计并合成了一个包含12,375条gRNA的定制化CRISPR文库,靶向LDLR基因座周围约70 kb的非编码区域。其次,在HuH7肝细胞中进行了基于流式细胞术分选的高通量CRISPR筛选,通过荧光标记LDL摄取量的变化来评估gRNA的富集情况。第三,应用大规模并行报告基因检测(MPRA),设计包含不同长度重叠片段(tile)的寡核苷酸池,对筛选出的关键区域进行增强子活性的精细定位。此外,还结合了传统的荧光素酶报告基因实验、qRT-PCR、流式细胞术以及单克隆细胞的基因编辑验证等手段。
研究结果
针对LDLR基因座候选CREs的定制CRISPR文库的设计与合成
研究人员通过分析大型LDL胆固醇GWAS数据、人类肝脏组织的表观遗传特征(开放染色质、H3K27ac修饰)以及进化保守区域,综合提名了候选CREs。最终构建的CRISPR文库包含12,375个gRNA靶点,覆盖了LDLR转录起始位点(TSS)上下游约70 kb的区域,并加入了阴性和阳性对照gRNA。
通过CRISPR筛选探究候选LDLR CREs
在HuH7细胞中进行筛选,结果显示阴性对照gRNA与阳性对照gRNA(靶向LDLR和MYLIP编码区)的分离效果良好,证明了筛选体系的可靠性。分析表明,绝大多数靶向候选CREs的gRNA在LDL高摄取与低摄取群体间无显著差异。去除预测会在内含子-外显子连接处(IEJ)附近产生双链断裂(DSB)的gRNA后,仍有867条gRNA显示出显著降低LDLR表达的效果。通过滑动窗口分析,研究人员最终鉴定出25个显著且独特的CRE峰,这些区域主要聚集在靠近LDLR TSS的区域。
LDLR CREs与部分常见LDL胆固醇相关变异共定位
对包含72个强关联GWAS变异的约30 kb区域的分析显示,位于LDLR启动子上游的整个区域在筛选中活性极低,未发现显著的CRE峰。相反,位于第一内含子的多个gRNA在LDL低摄取细胞中显著富集,表明其靶向区域的破坏导致了LDLR表达下降。其中最强的活性集中在第一内含子早期的两个相邻大CRE峰上,其中一个峰与GWAS强关联变异rs59281581重叠。该区域还表现出开放染色质特征、典型的增强子组蛋白修饰模式以及高度的进化保守性。
LDLR第一内含子增强子活性的确认
为了验证第一内含子区域对内源性LDLR表达的功能意义,研究人员选取了该区域的单个gRNA转导HuH7和HepG2细胞,发现其显著降低了LDL摄取量和LDLR mRNA水平。此外,将该内含子片段克隆到带有最小启动子的慢病毒报告载体中,发现其能使eGFP荧光强度增加约50倍,活性与著名的SV40增强子相当,从而证实了该区域具有经典的增强子功能。
LDLR第一内含子增强子活性的精细定位
鉴于CRISPR筛选在精确边界界定上的局限性,研究人员开发了MPRA。设计了一个包含74个重叠tile(长度分别为172、129、86和43 bp)的文库,覆盖CRISPR筛选中活性最强的860 bp区间。在HuH7和HepG2细胞中的检测结果显示,大多数tile无显著活性,但有一组特定的tile表现出与阳性对照相当甚至更强的活性,且在两种细胞系中具有极高的相关性。热图分析表明,活性最强的tile均重叠于同一核心区域。
精细定位增强子活性的验证
研究人员构建了包含三个不同片段(包含tile 6和42)的报告基因载体,证实其中两个片段完全重现了全长构建体的增强子活性,且正反取向均有效。为了在内源性背景下验证,研究人员利用一对gRNA在HuH7细胞中删除了该精细定位的增强子区域,获得了一个复合杂合缺失的单克隆细胞系。表型分析显示,该细胞系在脂蛋白丰富和缺乏条件下均表现出LDL摄取缺陷和LDLR mRNA水平降低,确证了该129 bp区域作为LDLR第一内含子增强子的功能。
讨论与结论
本研究通过高通量CRISPR筛选在LDLR基因座鉴定了25个功能性CREs,并利用MPRA将其中一个位于第一内含子的强增强子活性精细定位至129 bp的保守区域。该区域包含GWAS关联变异rs57217136,且不含有经典的SREBP结合位点,提示存在不依赖于SREBP的新型调控机制。研究还讨论了CRISPR核酸酶筛选在检测某些CREs时可能存在的局限性,如依赖于SpCas9 PAM序列的分布、gRNA活性的异质性以及indel大小的限制等。尽管如此,这项工作极大地拓展了人们对LDLR基因座非编码区域功能景观的理解,揭示了新的潜在治疗靶点,并展示了高通量基因组工具在解析非编码基因组方面的巨大潜力。论文发表于《PLOS Genetics》。