校正全基因组关联研究(GWAS)中的志愿者偏倚:提升 SNP 效应量与遗传力估计准确性

《Nature Communications》:Correcting for volunteer bias in GWAS increases SNP effect sizes and heritability estimates

【字体: 时间:2025年04月16日 来源:Nature Communications

编辑推荐:

  在全基因组关联研究(GWAS)中,志愿者偏倚影响研究结果准确性。研究人员利用逆概率(IP)权重开展校正志愿者偏倚的研究。结果显示,校正后 SNP 效应量和遗传力估计增大,基因集组织表达改变。该研究为 GWAS 研究提供了重要参考 。

  在全基因组关联研究(Genome-Wide Association Studies,GWAS)的领域里,就像在一片充满宝藏的神秘森林中探索,科学家们试图寻找与人类各种特征相关的遗传变异,解开复杂性状的遗传密码。然而,这片 “森林” 中却隐藏着一个棘手的问题 —— 志愿者偏倚(volunteer bias)。由于参与研究的志愿者并非随机选取,他们与目标人群存在差异,这就像在寻宝时选错了路线,可能导致研究结果偏离真相。这种偏倚不仅影响了 GWAS 结果的内部有效性,还让后续基于这些结果的分析变得不可靠,就像在摇摇欲坠的地基上盖房子,随时可能崩塌。
为了解开这个谜团,来自荷兰阿姆斯特丹自由大学(Vrije Universiteit Amsterdam)等机构的研究人员踏上了探索之旅。他们以英国生物样本库(UK Biobank,UKB)为研究对象,这个样本库拥有庞大的样本量和丰富的表型数据,是 GWAS 研究的重要资源,但也深受志愿者偏倚的困扰。

研究人员通过构建逆概率(Inverse Probability,IP)权重,开展逆概率加权 GWAS(Weighted GWAS,WGWAS),对 GWAS 的总结统计进行校正,以减少志愿者偏倚的影响。他们的研究成果发表在《Nature Communications》上,为 GWAS 研究开辟了新的道路。

在研究过程中,研究人员运用了多种关键技术方法。首先,利用英国人口普查(UK Census)数据构建 IP 权重,这些数据具有高代表性和大样本量,能更好地反映 UKB 目标人群的特征。然后,通过拟合线性模型进行 GWAS 和 WGWAS 分析,并使用 PLINK 和 BOLT-LMM 等软件进行相关计算和检验。此外,还运用了 LD-score 回归来估计遗传相关性和基于单核苷酸多态性(Single Nucleotide Polymorphism,SNP)的遗传力,以及通过 MAGMA 进行基因集组织表达分析。

研究结果如下:

  1. IP 权重捕获遗传成分:研究发现,IP 权重具有 4.8%(标准误 0.8%)的基于 SNP 的遗传力,表明其能有效捕获 UKB 中健康志愿者偏倚的遗传成分。在 GWAS 分析中,IP 权重与多种表型存在显著遗传相关性,例如与教育程度呈负相关( [0.025]),与 BMI 呈正相关( [0.023]) ,这反映出健康和社会经济地位较高的个体更易参与 UKB 研究。
  2. WGWAS 校正遗传关联:对比 WGWAS 和 GWAS 结果,多数表型经 WGWAS 校正志愿者偏倚后,SNP 效应量增大,更具预测性,但乳腺癌的 SNP 效应量缩小。WGWAS 的有效样本量平均比 GWAS 减少 62%,标准误差增加,同时基因组显著 SNP 数量减少,但能发现 GWAS 中未检测到的新位点。研究共鉴定出 4 个新位点,其中 1 个与乳腺癌相关,3 个与 1 型糖尿病(Type 1 Diabetes,T1D)相关。
  3. SNP 遗传力估计增大:经 WGWAS 校正志愿者偏倚后,多数表型的 SNP 遗传力估计显著增加。如 T1D 的 SNP 遗传力从 GWAS 中的 0.54% 提升至 WGWAS 中的 4.32%,乳腺癌从 2.59% 提升至 5.12% 。此外,WGWAS 还能减少因群体分层导致的偏差,使 LD - score 回归中的截距更接近 1。
  4. 影响基因组织表达结果:基因组织表达分析显示,WGWAS 和 GWAS 对不同性状的分析结果存在差异。以乳腺癌为例,GWAS 未发现特定身体区域基因表达与乳腺癌的显著关联,而 WGWAS 发现输卵管、子宫和卵巢中表达的基因与乳腺癌更相关,这表明校正志愿者偏倚有助于更好地理解基因影响表型的生物学途径。

研究结论和讨论部分指出,志愿者偏倚对 GWAS 结果影响显著,不同表型受影响程度不同,疾病相关、社会经济地位相关和健康行为相关的表型受影响较大,而人体测量学表型(如身高和 BMI)受影响相对较小。虽然 IP 权重存在一定局限性,可能无法完全捕获志愿者偏倚,但已能大幅减少偏差。与以往基于较小数据集构建的权重相比,本研究基于英国人口普查数据构建的 IP 权重具有明显优势。

该研究意义重大,它揭示了 GWAS 中志愿者偏倚的普遍性和严重性,强调了校正偏倚的必要性。研究结果为 GWAS 研究提供了重要参考,建议 GWAS 联盟为数据集提供人口权重或采用具有代表性的样本。同时,鼓励开发包含样本权重选项的 GWAS 软件,以便更好地处理志愿者偏倚问题,推动 GWAS 研究朝着更准确、更可靠的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号