编辑推荐:
在转录组关联研究(TWAS)中,现有方法多聚焦于表观基因组注释,且假设存在局限。研究人员开展 “MAAT:整合多种功能注释的非参数贝叶斯框架在 TWAS 中的应用” 研究,发现 MAAT 能提高检测效能,揭示更多基因 - 性状关联,为剖析复杂疾病病因提供新视角。
在生命科学和医学领域,随着全基因组关联研究(GWAS)的蓬勃发展,大量与复杂性状和疾病相关的遗传变异被发现。然而,确定这些变异影响性状的因果基因却困难重重。转录组关联研究(TWAS)应运而生,它旨在利用基因转录活性来找出影响人类疾病的基因。典型的 TWAS 先利用参考面板中顺式单核苷酸多态性(cis - SNPs)的基因型数据训练基因表达预测模型,再进行基因调控表达(GReX)与 GWAS 表型数据的关联分析。尽管 TWAS 已取得一定成果,但仍存在不少问题。现有注释辅助 TWAS 工具主要集中于表观基因组注释,当纳入更多注释时,当前方法所采用的注释分数与 SNPs 效应大小呈正相关的假设往往不成立,这导致在整合多方面注释信息时困难重重,难以全面捕捉不同注释对 cis - SNPs 的复杂影响,限制了 TWAS 在发现基因 - 性状关联方面的能力。
为了解决这些问题,中国农业大学、香港大学、中国医学科学院等机构的研究人员开展了关于 “MAAT:整合多种功能注释的非参数贝叶斯框架在转录组关联研究中的应用” 的研究。研究成果发表在《Genome Biology》上,为深入理解复杂疾病的遗传机制带来了新的曙光。
研究人员主要运用了以下关键技术方法:一是采用乘积分区模型与协变量结合(PPMx)的方法,将多种注释信息整合到基因表达预测模型中;二是从功能注释在线资源(FAVOR)选取 7 种综合功能注释,包括保守性主成分分析(aPC)、表观遗传学 aPC 等;三是运用基于角度的度量方法,为每个显著的基因 - 性状关联分配最重要的注释;四是利用综合柯西关联检验(ACAT)组合不同稀疏水平下的 p 值;五是使用多个数据集,如宗教秩序研究和拉什记忆与衰老项目(ROS/MAP)数据集、基因型 - 组织表达(GTEx)V8 数据库等进行分析。
研究结果如下:
- 方法概述:MAAT 是一个将多种功能注释整合到 TWAS 的框架。它在传统 TWAS 的基础上,通过采用非参数 PPMx 先验,将 7 种综合注释分数整合到基因表达预测步骤,并在 TWAS 框架内探究哪个注释对基因影响疾病的作用最大。PPMx 模型假设具有相似注释特征的 cis - SNPs 对基因表达具有相似的效应大小,为每个潜在的 cis - SNPs 聚类方案分配先验概率,从而更好地整合注释信息。
- 模拟研究:通过模拟研究,比较了 MAAT 与其他四种常用 TWAS 方法(PrediXcan、TIGAR、T - GEN、EpiXcan)在不同因果 SNP 比例(pCS)、表达遗传力(he2)和表型遗传力(hp2)设置下的表现。结果显示,MAAT 在多数情况下具有更高的预测 R2和检测效能,且能有效控制一类错误率。在因果 SNP 较少、he2较小时,各方法表现相近;但在其他情况下,MAAT 优势明显。例如,当 pCS=0.1、he2=0.5 时,MAAT 的平均预测 R2高于其他方法。
- MAAT 提高表达预测性能并识别更多基因 - 性状关联:将 MAAT 等五种方法应用于检测与八种精神疾病相关的显著基因。在对 ROS/MAP 数据进行基因表达预测后,通过 GTEx V8 数据库的 13 种脑组织进行独立验证,发现 MAAT 获得的预测 R2>0.005 的基因数量更多。在关联分析中,MAAT 在八种精神疾病中识别出 355 个显著关联,多于其他方法。对显著基因 - 性状关联的验证和分析表明,MAAT 在识别与精神疾病相关的基因方面表现更优,且通过共定位分析和通路富集分析,进一步揭示了基因 - 性状关联的可靠性和潜在机制。
- 多性状共享的显著基因:MAAT 发现了一些在多种精神疾病中发挥多效性作用的基因。如在八种精神疾病中,有九个基因在三种疾病中表现出高关联水平。对于一些高度相关的性状对,如双相情感障碍和精神分裂症、精神分裂症和智力、神经性厌食症和抑郁症等,MAAT 也识别出了在两个性状中都起重要作用的基因。通过 STRING 蛋白质 - 蛋白质关联网络数据库分析发现,不同性状的 TWAS 显著基因之间存在强相互作用,表明多种精神疾病存在共享的遗传风险因素。
- 多性状共享的富集通路:对 MAAT 选择的显著基因进行通路富集分析,发现许多结果得到了现有研究的证实。综合分析八种性状的前 50 个显著通路,确定了 66 个在三种以上性状中显著富集的通路,其中包括许多与神经系统疾病相关的通路。如早期内体通路在双相情感障碍、抑郁症、智力和精神分裂症中均有富集,凸显了其在多种精神疾病中的重要作用。
- 转录因子相关注释的基因 - 性状关联:在分析的八种性状中,鉴定出 75 个主要疾病风险机制与转录因子(TF)注释相关的基因。通过整合 TF - 疾病数据库和 TF - 基因调控网络,发现许多 TF 标记基因受与相应性状相关的 TF 调控。如 CRABP1 等基因受多个精神分裂症相关 TF 调控,其调控机制可能是影响精神分裂症的关键途径。
- 表观遗传学相关注释的基因 - 性状关联:发现 121 个主要疾病风险机制源于表观遗传变化的基因。在八种性状中,精神分裂症的表观遗传标记基因最多,且部分基因在多个性状中具有高显著性,其影响多个性状的潜在机制可归因于表观遗传因素。如 SPI1 通过表观遗传途径影响阿尔茨海默病和智力,已有研究验证了其在这两种疾病中的作用。
- 保守性相关注释的基因 - 性状关联:MAAT 鉴定出 97 个与保守性标签相关的基因 - 性状关联。通过与管家基因集交叉参考,验证了这些基因的合理性。如在阿尔茨海默病和精神分裂症中,部分保守性标记基因已被证实具有保守功能,且与相应疾病存在潜在关联。
- 靠近转录起始位点 / 转录终止位点 / 编码区注释的基因 - 性状关联:发现靠近转录起始位点(TSS)/ 转录终止位点(TES)/ 编码区的 SNP 位点可能影响基因表达,通过与 GWAS 目录比较,在多种疾病中证实了相关基因影响性状的机制与关键 SNP 靠近 TSS/TES/ 编码区有关。如在帕金森病中,KANSL1 和 NSF 基因的机制与它们靠近编码区有关。
研究结论和讨论部分指出,MAAT 框架有效整合了不同注释对基因组功能的综合影响,在模拟研究和真实数据分析中均表现出优势,能提高预测 R2、增加检测效能并识别更多基因 - 性状关联,还能为每个显著关联分配重要注释,有助于深入理解复杂疾病的遗传基础。然而,MAAT 也存在一些局限性,如 PPMx 的计算负担较重,注释分配过程缺乏标准化统计检验。未来,随着单细胞技术的发展、不同人群研究的开展、跨组织 TWAS 的推进以及更有效的精细定位方法的开发,MAAT 有望在解析复杂疾病遗传机制方面发挥更大作用,为精准医学提供更有力的支持。