全基因组范围内罕见编码变异对癌症遗传力的贡献评估

【字体: 时间:2025年03月12日 来源:AJHG 9.8

编辑推荐:

  该研究利用英国生物银行数据,评估罕见编码变异对 11 种癌症遗传力贡献,发现多种癌症关联。

  ### 研究背景
全基因组关联研究(GWASs)在识别与疾病相关的常见变异方面成果显著,比如已确定了超过 300 个与乳腺癌相关的常见易感位点 。随着研究的深入,关联研究借助下一代测序方法开始向罕见变异领域拓展。像乳腺癌,除了常见变异,通过连锁或靶向测序研究,还发现了ATMBRCA1等基因中的罕见变异;在结直肠癌研究中,也识别出了错配修复(MMR)基因中的罕见变异 。然而,对于罕见编码变异对癌症遗传力的总体贡献,一直以来都缺乏明确的定论。虽然一些基因(如BRCA1BRCA2)对特定癌症家族聚集的重要作用早已为人所知,但由于大多数基因在关联研究中未得到充分评估,这个更普遍的问题始终悬而未决。此前,研究人员描述了一种通过经验贝叶斯方法评估基因层面罕见编码变异对癌症遗传力贡献的方法,并在乳腺癌研究中有所应用。本研究在此基础上,将该方法应用于英国生物银行(UK Biobank)中 11 种不同癌症类型的研究,同时扩展方法以考虑成对癌症相关基因的重叠情况,进而评估癌症间编码变异遗传力的相关性。

材料和方法


  1. 材料:英国生物银行是一项基于人群的前瞻性队列研究,涉及 50 多万名个体,其全外显子测序(WES)数据为研究提供了重要基础。研究人员获取了 450,000 个样本的 WES 数据,并进行了严格的质量控制(QC),包括对变异调用格式(VCF)文件的基因型层面筛选,以及排除性别信息不一致或亲属过多的样本等。最终用于分析的数据集包含 419,307 个样本,其中女性 227,393 名,男性 191,914 名。研究对象的癌症诊断通过与国家癌症登记数据(NCRAS)关联以及选择合适的 ICD - 10 代码确定,对于乳腺癌,还纳入了自我报告的癌症病例(占所有乳腺癌病例的 7.8%),以保证与先前分析的一致性和准确性。研究选取的 11 种癌症均为英国生物银行中根据恶性癌症总结报告确定的常见实体瘤。此外,利用 Ensembl 变异效应预测器(VEP)对变异进行注释,以此识别蛋白截断变异(PTVs),并排除了基因最后一个外显子及倒数第二个外显子最后 50bp 的 PTVs,因为这些变异通常被预测可逃避无义介导的 mRNA 降解(NMD)。
  2. 方法
    • 基因负担测试:为探究基因中罕见变异与目标癌症之间的关联,研究人员采用简单的负担测试方法,即将基因内的变异合并在一起进行分析。对于每个基因,根据样本是否携带 PTV(包括规范剪接位点变异),将基因型合并为 0/1 变量。针对不同情况的癌症,分别构建了不同的逻辑回归模型。当无家族史信息且癌症仅在单一性别中常见时(如卵巢癌),使用模型 1;当无家族史信息但癌症在两性中均常见时(如胰腺癌),使用模型 2;当有家族史信息时(如乳腺癌),则使用模型 3。通过 Wald p值检验关联,对于达到外显子组显著性且癌症携带者数量≥5 的基因,还进行了似然比检验;对于p≤0.001 的基因 - 癌症关联,进一步采用 Firth 逻辑回归以校正因携带者数量少导致的p值不准确问题。
    • 建模效应大小:研究人员对先前用于评估 PTVs 对乳腺癌家族相对风险贡献的方法进行了扩展和推广,使其适用于英国生物银行中的任何癌症类型,并能够考虑多种癌症的联合分布情况。
    • 个体癌症模型:在个体癌症模型中,假设效应大小(对数优势比 [OR])的先验分布,其中一部分基因(比例为 π)被认为与癌症相关。对于风险相关基因,其对数 OR 的先验分布假定遵循负指数分布。通过最大似然法,利用每个基因和每种性别中患有癌症和未患癌症的 PTV 携带者数量的汇总统计信息,对模型参数 π 和 β 进行拟合。这些参数可用于推导每个基因与癌症风险相关的后验概率、预测效应大小的中位数,以及估计归因于所有基因中 PTVs 的一级亲属的家族相对风险(FRR)。同时,在假定每种癌症的总体 FRR 为 2,且 PTVs 与其他常见遗传或家族因素呈乘法组合的情况下,将其表示为总体 FRR 的估计比例。为了模拟两种癌症的联合效应,研究人员扩展了模型,将基因分为四类:仅与癌症 1 相关、仅与癌症 2 相关、与两种癌症都相关、与两种癌症都不相关,分别用 π10、π01、π11和 1 - π10 - π01 - π11表示其比例。通过似然比检验评估成对癌症易感基因重叠的证据,原假设为基因与两种癌症相关的概率相互独立。


研究结果


  1. PTV 负担结果:对 11 种癌症的 PTV 负担测试结果显示,卵巢癌在 Wald 检验中具有最多的外显子组关联基因(9 个),其次是胰腺癌(8 个)和膀胱癌(8 个)。研究人员特别关注了由 COSMIC 定义的肿瘤抑制基因(TSGs),发现乳腺癌中具有最多的 COSMIC TSGs 且p≤1×10-4(8 个基因),其次是结直肠癌(6 个基因)。在 TSGs 中,ATM与乳腺癌、前列腺癌、胰腺癌和食管癌在p≤1×10-4水平上相关;BRCA2与乳腺癌、前列腺癌和卵巢癌在该水平上相关;MSH6MSH2MLH1与结直肠癌和子宫内膜癌在该水平上相关。然而,肾癌和膀胱癌中没有 COSMIC TSGs 达到p≤1×10-4。许多关联基因的癌症携带者数量较少,这种情况下p值可能被夸大,经 Firth 回归或似然比检验后,显著性有所降低。在未先前报道的基因 - 疾病关联中,经所有方法均达到外显子组关联的基因有:子宫内膜癌的MSH6、前列腺癌的ATM和黑色素瘤的MED9。此外,对于卵巢癌,还有 5 个假定的卵巢癌基因在p≤0.05 水平上显示出关联。
  2. 经验贝叶斯建模:经验贝叶斯建模结果表明,卵巢癌中风险相关基因的估计比例最高(π = 0.037,相当于 578 个基因),其次是食管癌(π = 0.030,约 468 个基因)和胰腺癌(π = 0.019,约 297 个基因),而肾癌、膀胱癌和恶性黑色素瘤中 π 估计为 0。从估计的对数 OR 的指数分布来看,结直肠癌的曲线最平缓,其估计的中位 OR 最大;前列腺癌的中位 OR 最低,这与高风险基因比例较低相符。在对家族相对风险(FRR)的总体贡献方面,卵巢癌的比例最高(45.9%),其次是子宫内膜癌(16.5%)。根据最佳拟合模型计算出的每个基因与每种癌症相关的后验概率显示,乳腺癌中有 6 个基因的后验概率 > 0.9,卵巢癌中有 2 个基因达到该水平,前列腺癌中有 3 个基因,胰腺癌中有 1 个基因,结直肠癌中有 4 个基因,子宫内膜癌中有 1 个基因。而肺癌、食管癌、肾癌、膀胱癌和恶性黑色素瘤中没有基因的后验概率 > 0.9。
  3. 联合癌症模型:在联合癌症模型分析中,发现乳腺癌 - 前列腺癌、乳腺癌 - 卵巢癌、结直肠癌 - 子宫内膜癌和乳腺癌 - 胰腺癌这几对癌症之间的易感基因重叠证据最强。此外,前列腺癌 - 卵巢癌、前列腺癌 - 胰腺癌等也存在显著关联,还有一些癌症对之间存在较弱的重叠证据。对于具有最强重叠证据的癌症对,如乳腺癌 - 前列腺癌、乳腺癌 - 卵巢癌等,估计的 π10 = π01 = 0,意味着相关基因完全重叠。在至少一对癌症中,后验概率 > 0.8 的基因有APCATM等 11 个基因,其中ATM与最多的癌症对(9 对)相关。在结直肠癌和子宫内膜癌的联合模型中,有 3 个基因的后验概率 > 0.9 与两种癌症都相关,且 COSMIC TSGs 中还有APC的后验概率 > 0.5。

讨论


本研究利用大规模外显子测序数据集,对 11 种癌症类型的基于基因的关联模式进行了全面描述。在未先前报道结果的癌症中,通过 Wald 检验发现了一些外显子组显著基因,但由于携带者数量少,这些关联在更保守的检验方法下显著性降低。与先前的研究相比,本研究采用贝叶斯方法,能够识别出更多与癌症风险相关的基因,例如ATM在本研究中与 9 对癌症相关,而后验概率 > 0.8,这是先前研究未发现的。研究还发现多种癌症对之间存在易感基因的重叠,特别是乳腺癌、卵巢癌、胰腺癌和前列腺癌之间,几乎存在完全的易感基因重叠,这为深入研究这些癌症的发病机制提供了新的方向。此外,研究还发现了一些新的潜在易感基因,如NHEJ1在卵巢癌和乳腺癌中均显示出关联,BAP1在乳腺癌和前列腺癌的联合分析中表现出更强的关联证据。研究结果再次证实了肿瘤抑制基因和 DNA 修复基因在癌症易感基因中的显著富集现象。不过,研究也存在一些局限性。例如,分析仅局限于 PTVs,未考虑错义或其他编码变异;多癌症分析目前仅局限于成对癌症,未扩展到更大的癌症集合;模型假设了特定的效应大小先验分布,且未考虑保护等位基因。尽管如此,本研究为后续在更大规模的靶向测序和功能实验中探索相关基因提供了重要的基础和方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号