生物样本库规模与分布式数据中SNP遗传力估计的分析与计算解决方案：随机Haseman-Elston回归的优化与应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《PLOS Computational Biology》：Analytical and computational solution for the estimation of SNP-heritability in biobank-scale and distributed datasets

【字体：大中小】 时间：2025年10月22日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　本文提出了一种改进的随机Haseman-Elston回归（RHE-reg）方法，用于高效估计生物样本库规模数据中的SNP遗传力（h2）。通过解析采样方差并引入迭代控制（B），该方法在UK Biobank（UKB）81个数量性状中实现了精确估计，同时拓展至分布式数据集（垂直与水平RHE-reg），为隐私保护下的遗传分析提供了新方案。

方法描述

随机Haseman-Elston回归（RHE-reg）框架

基于Haseman-Elston回归的矩估计（MoM）框架，RHE-reg通过随机化算法将计算复杂度从O（n²）降至O（nB），其中n为样本量，B为迭代次数。遗传关系矩阵（GRM）K = XX^T/m，X为标准化基因型矩阵，m为标记数。通过随机向量z_j~N（0,1）估计tr（K²）≈ ∑_j=1^B（z_j^TKz_j）/B，解决了大规模GRM计算的瓶颈。

随机估计h²

在随机交配假设下，遗传力估计量为h?² = （y^TKy - tr（K））/（tr（K²） - tr（K）²/n），其中y为标准化表型。通过随机化tr（K²）和tr（K⁴）的估计，实现了计算效率与精度的平衡。

采样方差与检验统计量

RHE-reg估计量的采样方差Var（h?²） = 2/（tr（K²）²）·（tr（K⁴） + （1-h²）²·tr（K²）²/n）。z统计量构建为z = h?²/SE（h?²），通过迭代控制（B）可逼近最优z值（z_opt）。

关键参数估计

有效标记数m_e = m²/∑_i,jr_ij²（r_ij为LD相关系数），通过随机化估计tr（K⁴）和Λ₁（高维遗传架构参数）。迭代次数B由预设精度η（如0.05）决定，确保估计稳定性。

分布式数据应用

垂直RHE-reg允许从不同来源分别估计分子与分母成分，水平RHE-reg将数据分至多个机构，通过标准化局部统计量聚合结果，无需共享原始数据，保障隐私安全。

结果

模拟研究

在135个模拟场景中（样本量n=1,000-10,000，标记数m=10,000-100,000，LD水平r²=0-0.8，h²=0-0.25），Method II（随机化估计tr（K⁴））较Method I（直接特征值计算）更稳定。MSE随B增加而降低，主导项为采样方差而非偏差。z统计量在B≥20时趋于稳定，与样本量和标记数相关。

水平RHE-reg验证

将数据分拆为两个队列（n=4,000与6,000），水平RHE-reg与个体级RHE-reg估计的h²和z值高度一致（r>0.99），证实分布式计算的可行性。

UK Biobank应用

对292,223名英国白人样本的81个数量性状进行估计，采用策略I（自适应B，η=0.05）和策略II（固定B=10,20,50）。策略I平均迭代B=51.8，h²估计与既往GCTA结果相关性达0.77，偏差仅1.23%。z统计量三种估计（直接、最优、预测）一致性高。计算效率较GCTA提升96.6%，较BOLT-REML提升83.8%。

垂直RHE-reg应用

将UKB数据均分两半，四组合估计（分子分母来源互换）显示h²和z值高度一致，验证垂直方案的稳健性。

讨论

本研究通过解析RHE-reg的采样方差与迭代控制，解决了Wu & Sankararaman（2018）中未明确的精度问题。提出的垂直与水平扩展方案为分布式数据下的遗传力估计提供了隐私保护路径。方法可进一步推广至显性方差估计和多组分模型，适用于生物样本库规模基因组学时代的高效计算需求。

联系信箱：

粤ICP备09063491号

热点排行