
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多个体血缘一致性检测的全基因组关联分析方法及其在血压性状研究中的应用
【字体: 大 中 小 】 时间:2025年08月04日 来源:Genetic Epidemiology 3.8
编辑推荐:
这篇研究论文提出了一种创新的血缘一致性检测(IBD)定位方法,通过构建局部亲缘关系矩阵来评估基因组位点与复杂性状的关联。该方法利用多个体IBD共享信息,采用方差分量模型进行似然比检验,并开发了基于Ornstein-Uhlenbeck过程的多重检验校正方法。研究显示该方法能有效控制I型错误率,在检测稀有和未分型变异方面优于传统单变异检验,并在英国生物银行(UK Biobank)收缩压数据分析中验证了其应用价值。
本研究开发了一种基于多个体血缘一致性(IBD)的定位方法,通过评估特定基因组位置由局部亲缘关系矩阵量化的遗传相似性与复杂性状表型变异的关联。该方法采用方差分量模型,构建全局和局部IBD矩阵,并利用似然比框架进行统计检验。创新性地提出了基于检验统计量相关结构的全基因组多重检验校正方法。
随着测序技术的发展,理解遗传变异与复杂性状的关联成为研究热点。传统连锁分析和全基因组关联研究(GWAS)各有局限:前者分辨率低且需要家系数据,后者对稀有变异检测效力不足。IBD定位通过分析共享祖先片段,能捕捉邻近稀有等位基因的联合效应,且不依赖预设的遗传结构假设。现有方法多关注成对IBD片段,而本研究利用PBWT排序直接聚类多个体共享单倍型,显著提高了计算效率。
采用线性混合效应模型:Y = Xβ + G + Ql + ε,其中G和Ql分别表示全基因组和位点特异性效应。通过限制性最大似然(REML)估计参数,构建基于对数优势比(LOD)的检验统计量Wl,其零分布为0与χ21的1:1混合分布。利用BFGS算法优化计算,并通过稀疏矩阵技术处理大规模数据。
使用ibd-cluster软件直接聚类共享单倍型,设置单倍型长度阈值(L)和修剪阈值(T)。较小的L和T值会增加IBD簇规模但可能引入假阳性,而较大值则提高特异性但减少片段数量。模拟显示L=2cM和T=0.5cM在效能和计算效率间取得最佳平衡。
全局矩阵Ψ通过IBDkin估计全基因组亲缘系数,局部矩阵Φl则利用多个体IBD聚类结果构建。具体地,Φl = 2×AlAlT,其中Al记录各单倍型在IBD簇中的分配比例。这种构造方法保证了矩阵的正定性。
将检验统计量建模为修正的Ornstein-Uhlenbeck过程,推导出相关系数解析式:Corr(Wli,Wlj) = [2πρ2(d)+6ρ(d)√(1-ρ2(d))+(2+4ρ2(d))sin-1ρ(d)]/(5π),其中ρ(d)=exp(-αd)。通过模拟空表型估计衰减参数α,进而计算基因组显著性阈值。
包括四个主要步骤:(1)使用hap-ibd和IBDkin构建亲缘矩阵;(2)运行ibd-cluster进行多个体IBD检测;(3)选择测试位点进行关联分析;(4)应用多重检验校正。在英国生物银行数据分析中采用两阶段策略以平衡计算负担和检测效能。
模拟显示不同IBD检测参数下,衰减参数α估计值稳定。当L=2cM时,UK Biobank数据估计α=1.62,对应基因组显著性阈值为2.3×10-6,较Bonferroni校正更宽松。
在模拟数据和真实数据中,提出的校正方法将基因组I型错误率控制在名义水平(约5%),而Bonferroni校正则过于保守(最低仅1.8%)。
对稀有变异(0.05%-1% MAF)的检测效能最高达98.6%,显著优于单变异检验(11%)。对超稀有变异(<0.05% MAF)也有78%的检出率。在序列数据中,虽然不及SKAT检验,但在SNP阵列数据中展现出独特优势。
分析124,376名英国白人的收缩压数据,发现19号染色体17.759Mb处达到基因组显著性(p=2.21×10-7),靠近已知血压相关基因MYO9B和USHBP1。比较分析显示,该方法比FiMAP检测到更多信号。
本研究发展的IBD定位方法为复杂性状遗传架构解析提供了新工具,特别是在稀有变异检测方面优势显著。多重检验校正方法有效解决了传统Bonferroni校正过于保守的问题。未来改进可包括:(1)开发更高效算法处理超大规模数据;(2)结合单倍型分析提高定位精度;(3)扩展至二元性状和基因-环境交互作用分析。该方法在生物医学研究中具有广阔应用前景。
生物通微信公众号
知名企业招聘