利用生物银行数据估算多类型表型全表型组共遗传性的计算高效方法

【字体: 时间:2025年10月15日 来源:Communications Biology 5.1

编辑推荐:

  本研究针对生物银行数据中表型数量庞大、类型异质(连续、离散、时间事件)导致的统计与计算挑战,提出统一建模框架MPCH,通过潜随机效应区分遗传与家族共享环境对表型变异的贡献。采用两阶段高效计算策略,先最大化各表型边际似然,再基于表型对估计共遗传性。应用于UK Biobank 290个表型,发现大量表型对存在显著遗传共遗传性,为共病共享遗传病因提供新见解,助力精准医学。

  
随着生物银行数据的积累,研究多疾病表型间的共遗传性(coheritability)为揭示共享遗传病因提供了宝贵资源。然而,表型数量庞大且类型异质(如连续、离散、时间事件型)给估计共遗传性带来显著统计与计算挑战。传统方法如基因组限制性最大似然(GREML)、连锁不平衡评分回归(LDSC)和闭式Haseman-Elston估计量(HEc)存在局限性:GREML计算密集,尤其适用于大型生物银行数据;LDSC依赖汇总统计,遗传异质性时可能不准确;HEc虽计算高效,但无法处理多类型表型。此外,生物银行数据中表型相关性存在多层次结构(个体和家族水平),当前方法难以区分遗传与家族共享环境效应,且无法扩展到表型组规模分析。
为此,研究人员在《Communications Biology》发表论文,提出统一建模框架MPCH(Multi-type Phenotype CoHeritability),通过潜随机效应区分遗传和家族共享环境对多类型表型变异的贡献。为规避高维数值积分,开发计算高效两阶段程序:先最大化各表型边际似然估计遗传力,再基于表型对估计共遗传性。应用该方法分析UK Biobank 290个表型,发现大量表型对存在显著遗传共遗传性,为共病共享遗传基础提供新见解,并有助于下游表型组关联研究(PheWAS)和精准医学治疗策略。
研究采用关键技术方法包括:基于UK Biobank样本(502,155人,含12,534名家族成员和489,621名无关个体),利用KING工具构建遗传关系矩阵(GRM)识别家族关系;对连续、二元、有序和时间事件表型分别采用线性混合效应模型、probit模型和比例风险模型建模;通过两阶段边际似然和伪似然估计避免高维积分,计算复杂度显著低于联合似然方法;使用R软件(4.4.0版)在多核CPU服务器实现。
Simulation
模拟研究评估共遗传性参数估计性能,涵盖四种家族类型(如单亲单子、双亲单子等),生成6种表型(2连续、2有序、2时间事件)。结果显示估计偏差接近零,置信区间覆盖良好。连续表型估计变异小,二元和时间事件表型变异较大。计算时间方面,连续表型约3.1分钟,二元和有序表型约2.5-2.9小时,时间事件表型约3.7小时,表型对共遗传性估计约1.0分钟,证明方法计算高效。
Single-trait heritability
单性状遗传力估计显示,94.1%表型遗传力低于50%,66.3%在10-30%之间。84.4%表型经Bonferroni校正后遗传力显著。家族共享环境效应接近零。典型高遗传力表型包括站立身高(74.8%,CI:74.3-75.2%)、脂蛋白A(58.0%)等体测量指标;行为与复杂疾病表型如吸烟(40.2%,CI:34.2-46.6%)、高血压疾病(35.7%,CI:31.5-40.1%)遗传力中等;时间事件表型如哮喘诊断年龄(31.7%,CI:30.8-32.6%)、糖尿病诊断年龄(25.7%,CI:24.7-26.7%)遗传力较低,表明环境和生活方式因素作用更大。估计值与文献一致(如身高遗传力68-95%,BMI 49.9%符合30-78%范围)。
Coheritability and environmental correlation
基因共遗传性和环境相关性估计显示,94.4%共遗传性绝对值小于20%,环境相关性集中于零。61.6%表型对共遗传性显著。最高共遗传性见于相似性状(如眼测量指标、身体组成指标)。不同表型间也发现显著共遗传性,如糖尿病与骨密度(29.0-33.8%)、糖化血红蛋白(HbA1c)与缺血性心脏病(23.2%,CI:12.8-33.6%)。与HEc相比,MPCH置信区间更短,估计更精确。聚类分析识别出五大共遗传性簇:身体组成、代谢综合征、骨密度、心理健康和感染/腹痛相关表型。
Discussion
MPCH框架优势在于统一处理多类型表型,区分遗传与环境效应,避免高维积分,计算效率高(计算复杂度为K多项式阶,远低于联合似然指数阶)。与HEc相比,MPCH利用所有数据(含无关个体),估计更高效(遗传力统计效率提高196倍,共遗传性提高3.2倍)。此外,MPCH可预测随机效应(如ei和εijk),反映隐藏混杂(如共享近期祖先和环境),可用于下游GWAS控制混杂。局限性包括:需要不同遗传相关性家族区分遗传与环境效应;未观察因素可能与遗传关系共变;未区分其他环境效应(如家庭或社区级);UK Biobank家族关系为推导,可能低估真实环境效应。
研究结论强调,遗传因素对表型相关性贡献普遍高于家族共享环境因素,但大多数表型对相关性仍主要受其他因素(如个人生活方式、独特环境暴露)驱动。MPCH为大规模生物银行数据表型组共遗传性分析提供强大工具,有望促进复杂疾病共享遗传架构研究和精准医学发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号