综述:eQTL分析:从基因组到机制的桥梁

【字体: 时间:2025年09月19日 来源:Genes & Diseases 9.4

编辑推荐:

  本综述系统梳理了表达数量性状位点(eQTL)的研究进展,涵盖其鉴定方法(如线性回归模型)、分析工具(如MatrixeQTL、FastQTL)、发展历程(从微阵列到单细胞测序时代)及公共数据资源(如GTEx、eQTLGen)。文章重点探讨了eQTL在类风湿关节炎、2型糖尿病、乳腺癌和精神分裂症等疾病中的调控机制,强调了其作为连接遗传变异与表型的桥梁作用,并为精准医学提供新视角。

  

引言

在后基因组时代,理解基因组变异(如单核苷酸多态性SNP)与表型之间的遗传机制是研究者面临的核心挑战。表达数量性状位点(eQTL)作为最常见的QTL类型,是指调控特定基因表达的遗传变异位点。其标准鉴定方法是通过线性回归模型,将基因表达视为数量性状,量化基因变异对基因表达的影响。eQTL通过多种方式发挥作用:位于基因转录起始区的eQTL可影响转录因子结合位点的亲和力或改变染色质可及性;位于编码区的eQTL则直接影响编码蛋白的活性;此外,eQTL还可通过调控蛋白或microRNA来调节靶基因表达。eQTL最重要的功能在于解释全基因组关联研究(GWAS)后非编码区性状相关遗传变异与复杂性状之间的机制。

eQTL的鉴定与分析

数据

eQTL分析需要多类数据:来自相同样本的SNP基因型矩阵和基因表达矩阵、物理位置数据以及可选的协变量矩阵。原始基因型数据通常用0、1、2表示常见等位基因纯合、杂合基因型和次要等位基因纯合。基因型密度不足时,需使用HapMap或1000 Genomes Project作为参考数据,通过IMPUTE2软件进行基因型插补。SNP筛选标准包括:次要等位基因频率(MAF)≥5%、SNP缺失率<5%、哈迪-温伯格平衡检验P值>1×10?6。基因表达数据可来自微阵列或测序数据,最终转换为基因表达矩阵。协变量数据需处理成矩阵形式,除SNP外,年龄、性别、种族等生物相关因素应优先作为协变量。基因和SNP的位置文件来自NCBI基因组数据库和dbSNP数据库。

eQTL的鉴定

eQTL分析采用线性回归分析,以SNP基因型为自变量,基因表达为因变量。例如,某SNP有两个等位基因(A和a),线性回归模型可表示为表达式与基因型的函数关系,其中AA、Aa、aa分别编码为2、1、0。包含协变量时使用多元回归。通过拟合线性回归模型检测eQTL,可获得SNP-基因对、beta值、P值等统计数据。使用Bonferroni和错误发现率等方法控制I类错误,当调整后P值小于设定阈值(如0.05)时,SNP被鉴定为eQTL。

根据eQTL位点与调控基因转录起始位点的距离,eQTL可分为顺式eQTL和反式eQTL。顺式eQTL位于目标基因基因组窗口内(如上下游1Mb区域),通过影响编码区转录本来改变基因表达;反式eQTL位于该窗口区域外,包括不同染色体上的变异,通过与调控蛋白(如转录因子)相互作用修饰基因表达。虽然两类eQTL都能解释遗传变异与基因表达之间的调控关系,但当前研究主要关注顺式eQTL的调控功能。

常用eQTL鉴定工具

MatrixeQTL是经典eQTL分析软件,可用于鉴定顺式和反式eQTL,支持大规模数据分析、线性模型分析和多协变量调整。FastQTL是另一常用软件,专为顺式eQTL分析设计,运行速度快,支持协变量调整和基因表达数据标准化。QTLtools适用于多种分子QTL分析,包括eQTL、剪接QTL和染色质互作QTL分析。

随着单细胞测序技术的发展,涌现出多个单细胞水平eQTL工具。SCeQTL是R包,可对单细胞数据进行eQTL分析,并能检测与细胞谱系或细胞类型等其他分组因素相关的基因表达变异。eQTLsingle方法仅使用scRNA-seq数据或snRNA-seq数据即可识别eQTL。SURGE是一种从单细胞转录组数据中识别上下文特异性eQTL的方法。Cell Regulatory Map(CellRegMap)是基于线性混合模型的统计框架,通过scRNA-seq数据执行多上下文eQTL作图。

eQTL分析

鉴定出的eQTL可映射到参考基因组,部分位于基因内,部分位于基因间。这些eQTL提供多种分析应用,包括目标基因与其他基因组元件之间调控关系的下游分析。例如,富集分析可推断eQTL相关的生物学功能,网络分析可在多组学框架内研究其影响。

eQTL与GWAS的整合分析广泛应用。GWAS是识别SNP与复杂性状关联的成熟技术,但尽管通过GWAS识别了数百个风险SNP,这些SNP与复杂性状之间的机制仍不明确。eQTL分析可检测SNP与基因表达之间的调控关系,解释从遗传变异到疾病风险的调控路径(SNP→基因表达→疾病)。

转录组关联分析(TWAS)整合eQTL和GWAS,揭示复杂性状或疾病的遗传调控机制。其核心原理是构建基因表达预测模型,将遗传变异与表型的关联转化为基因表达水平与表型的关联,从而识别潜在因果基因。多种方法或软件(如PrediXcan、S-prediXcan、FUSION、UTMOST)已开发用于TWAS分析。GTEx项目为TWAS分析提供了极其丰富的基因组和转录组数据资源。

常用eQTL分析工具

eCAVIAR是贝叶斯概率模型,基于共定位方法识别GWAS和eQTL研究中的因果变异。基于汇总数据的孟德尔随机化(SMR)是基于线性回归的eQTL分析工具,可同时分析基因表达与基因型数据之间的关联。XGR是综合生物信息学工具包,提供多个分析模块,包括eQTL分析。OmicKriging是利用克里金插值的eQTL分析工具。

不同发展时期的eQTL

微阵列时期

1990年代,高通量DNA芯片或微阵列应用于各种基因表达场景,可同时进行基因表达分析和基因分型。获得微阵列的基因表达和SNP基因型后,通过回归分析鉴定eQTL。芯片技术用于类风湿关节炎(RA)和缺血性卒中等多种疾病的早期eQTL研究。

高通量测序时期

RNA-seq技术的出现极大促进了eQTL的发展。与微阵列技术相比,RNA-seq技术能更准确地解释遗传变异与表型之间的关系。2010年以来,RNA-seq技术已广泛用于eQTL研究。在高通量测序时代,eQTL分析极大促进了对多种疾病发病机制的研究。

后基因组时期

后基因组时期,多种方法应用于整合eQTL分析与GWAS,进行人类疾病的因果分析,如SMR和共定位分析。基于SMR的整合分析已识别多种疾病中的多个风险基因。eQTL与生存分析整合用于识别癌症中的生存相关eQTL,整合eQTL与其他组学数据的网络分析是当前研究热点。

单细胞测序时期

scRNA-seq技术的引入为在单个细胞水平分析eQTL提供了新的可能性。2013年出现了将SNP与scRNA-seq数据中基因表达联系起来的早期方法,为研究单细胞eQTL奠定了基础。2018年,Kang等人使用基于液滴的单细胞测序技术进行了首次真正的单细胞eQTL(sc-eQTL)分析。

scRNA-seq技术的快速发展使得多个研究组能够在各种生物系统中探索复杂的调控景观,包括外周血单核细胞、T细胞、诱导多能干细胞、大脑皮层和多巴胺能神经元分化。这些研究获得了关于免疫反应基因细胞类型特异性eQTL的重要发现。除了sc-eQTL研究,还开发了多种工具和方法来优化和设计sc-eQTL分析。

常用eQTL数据资源

GTEx(V8)是综合公共资源,包含来自近1000名个体的49种非疾病组织的eQTL数据。eQTLGen是免费eQTL数据库,存储来自31684个全血样本的顺式和反式eQTL。eQTL Catalogue是宝贵资源,提供来自32项不同研究的统一处理的基因表达顺式eQTL和剪接QTL。OneK1K是大型队列,包含从982名供体收集的127万个外周血单核细胞的scRNA-seq数据。scQTLbase是第一个综合性数据库,用于探索人类sc-eQTL。SingleQ是单细胞eQTL交互数据库,收集sc-eQTL数据集并提供跨细胞类型的在线可视化。PancanQTL是第一个癌症相关数据库,存储癌症基因组图谱(TCGA)中33种癌症类型9196个肿瘤样本的eQTL。

eQTL在临床疾病中的作用

类风湿关节炎

RA是一种慢性炎症性自身免疫性疾病,可能导致关节损伤和全身并发症。eQTL分析为理解RA的致病机制提供了推动。最近,eQTL分析识别了一些新的易感基因,并揭示了RA的新遗传机制。

2型糖尿病

T2D是一种常见的代谢性疾病,全球影响超过3亿人。尽管GWAS已识别T2D中的多个易感SNP,但并未完全解释风险位点如何导致T2D,而eQTL很好地填补了这一空白。通过eQTL研究已经确定了对胰岛细胞功能的某些影响。

乳腺癌

乳腺癌是全球女性中最常见的癌症,呈现家族聚集性,表明遗传是重要因素。GWAS和荟萃分析已识别多个风险位点,如BRCA1、BRCA2和PALB2,但这些位点只能解释约30%的家族风险。eQTL分析可直接或间接探查影响靶基因并从而影响乳腺癌的表达模式,很大程度上弥补了遗传力分析方法。

精神分裂症

SZ是一种以频繁幻觉为特征的严重精神疾病,由大脑功能改变引起。遗传因素是影响SZ的主要因素。eQTL有助于识别遗传标记和解释SZ中复杂的遗传结构。eQTL与单细胞RNA测序分析的结合使研究者能够进一步加深对SZ的理解。

讨论

eQTL作为从基因组到机制的桥梁,允许研究遗传变异与复杂性状之间的潜在影响。测序技术的发展产生了丰富的eQTL数据,使得研究重点从eQTL鉴定转向其应用。eQTL分析可以全面解释基因组标记所涉及的调控机制。

在多种复杂疾病中已识别数百个eQTL,弥补了GWAS的不足,并允许风险位点与疾病之间的因果推断。然而,eQTL分析存在某些局限性。首先,在公共数据库中难以获得来自相同样本的SNP基因型和基因表达数据进行eQTL分析。其次,公共数据库中识别的eQTL在不同人群(如病例和对照)中可能存在调控差异,需要进一步检测。第三,需要更高效的工具来有效整合eQTL和其他组学数据。

eQTL研究的发展导致其相关理论和方法在遗传变异与其他生物元件之间研究中的应用。出现了至少30种其他类型的分子QTL,如影响蛋白质丰度的蛋白质QTL、影响DNA甲基化模式的甲基化QTL、调控选择性转录本同工型的剪接QTL以及调节代谢物水平的代谢QTL。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号