生物样本库规模与分布式数据中SNP遗传力估计的分析与计算解决方案:随机Haseman-Elston回归的优化与应用

《PLOS Computational Biology》:Analytical and computational solution for the estimation of SNP-heritability in biobank-scale and distributed datasets

【字体: 时间:2025年10月22日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本文提出了一种改进的随机Haseman-Elston回归(RHE-reg)方法,用于高效估计生物样本库规模数据中的SNP遗传力(h2)。通过解析采样方差并引入迭代控制(B),该方法在UK Biobank(UKB)81个数量性状中实现了精确估计,同时拓展至分布式数据集(垂直与水平RHE-reg),为隐私保护下的遗传分析提供了新方案。

  
方法描述
随机Haseman-Elston回归(RHE-reg)框架
基于Haseman-Elston回归的矩估计(MoM)框架,RHE-reg通过随机化算法将计算复杂度从O(n2)降至O(nB),其中n为样本量,B为迭代次数。遗传关系矩阵(GRM)K = XXT/m,X为标准化基因型矩阵,m为标记数。通过随机向量zj~N(0,1)估计tr(K2)≈ ∑j=1B(zjTKzj)/B,解决了大规模GRM计算的瓶颈。
随机估计h2
在随机交配假设下,遗传力估计量为h?2 = (yTKy - tr(K))/(tr(K2) - tr(K)2/n),其中y为标准化表型。通过随机化tr(K2)和tr(K4)的估计,实现了计算效率与精度的平衡。
采样方差与检验统计量
RHE-reg估计量的采样方差Var(h?2) = 2/(tr(K22)·(tr(K4) + (1-h22·tr(K22/n)。z统计量构建为z = h?2/SE(h?2),通过迭代控制(B)可逼近最优z值(zopt)。
关键参数估计
有效标记数me = m2/∑i,jrij2(rij为LD相关系数),通过随机化估计tr(K4)和Λ1(高维遗传架构参数)。迭代次数B由预设精度η(如0.05)决定,确保估计稳定性。
分布式数据应用
垂直RHE-reg允许从不同来源分别估计分子与分母成分,水平RHE-reg将数据分至多个机构,通过标准化局部统计量聚合结果,无需共享原始数据,保障隐私安全。
结果
模拟研究
在135个模拟场景中(样本量n=1,000-10,000,标记数m=10,000-100,000,LD水平r2=0-0.8,h2=0-0.25),Method II(随机化估计tr(K4))较Method I(直接特征值计算)更稳定。MSE随B增加而降低,主导项为采样方差而非偏差。z统计量在B≥20时趋于稳定,与样本量和标记数相关。
水平RHE-reg验证
将数据分拆为两个队列(n=4,000与6,000),水平RHE-reg与个体级RHE-reg估计的h2和z值高度一致(r>0.99),证实分布式计算的可行性。
UK Biobank应用
对292,223名英国白人样本的81个数量性状进行估计,采用策略I(自适应B,η=0.05)和策略II(固定B=10,20,50)。策略I平均迭代B=51.8,h2估计与既往GCTA结果相关性达0.77,偏差仅1.23%。z统计量三种估计(直接、最优、预测)一致性高。计算效率较GCTA提升96.6%,较BOLT-REML提升83.8%。
垂直RHE-reg应用
将UKB数据均分两半,四组合估计(分子分母来源互换)显示h2和z值高度一致,验证垂直方案的稳健性。
讨论
本研究通过解析RHE-reg的采样方差与迭代控制,解决了Wu & Sankararaman(2018)中未明确的精度问题。提出的垂直与水平扩展方案为分布式数据下的遗传力估计提供了隐私保护路径。方法可进一步推广至显性方差估计和多组分模型,适用于生物样本库规模基因组学时代的高效计算需求。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号