基因组近交系数与系谱近交系数估计差异的原因及其意义

《Journal of Dairy Science》:Differences in estimates of genomic and conventional inbreeding: Reasons and Implications

【字体: 时间:2026年06月12日 来源:Journal of Dairy Science 4.4

编辑推荐:

  摘要:当基因组近交系数(genomic inbreeding coefficient)以反映个体在基因组标记位点上真实纯合性(homozygosity)水平的方式计算时,群体水平上按年度计算的近交趋势(inbreeding trend)显著高于基于系谱(ped

  
摘要:当基因组近交系数(genomic inbreeding coefficient)以反映个体在基因组标记位点上真实纯合性(homozygosity)水平的方式计算时,群体水平上按年度计算的近交趋势(inbreeding trend)显著高于基于系谱(pedigree-based)的估计值。本研究利用德国弗莱克菲(Fleckvieh,德系西门塔尔牛)乳肉兼用牛群体数据,比较了基于基因组数据计算的近交趋势及近交有效种群大小(inbreeding-effective population size, Ne)与常规系谱法所得结果。研究人员通过将基因组近交趋势的计算重复应用于不同SNP(Single Nucleotide Polymorphism,单核苷酸多态性)子集,阐明了等位基因频率(allele frequency)随时间变化趋势如何影响基因组近交系数。根据等位基因频率随时间变化的特定模式定义了三个SNP子集:等位基因频率向中间值移动的SNP、等位基因频率远离中间值(趋向固定)的SNP,以及无任何定向等位基因频率趋势的"中性(neutral)"SNP。正如预期,仅基于"中性"SNP计算的基因组近交趋势与系谱估计值吻合最佳,凸显了两种方法间根本的理论差异。这表明利用全部SNP得到的总体估计值取决于SNP在基因组上的分布,实质上是不同等位基因频率变化模式的SNP所引发效应的"平均值"。因此,基因组估计可用于监测基因组中中性位点的分布、数量与进展,以及遗传漂变(genetic drift)和强人工选择在其他位点引起的变化。综上所述,研究人员反对继续使用传统的近交概率度量方法,主张开发并使用能够反映基因组水平多种复杂过程的方法——前提是育种群体中有足够且具有代表性的个体被基因分型,且时间跨度至少达十年。
《Journal of Dairy Science》论文解读——基因组与常规近交系数估计差异的原因及启示
一、研究背景与立项依据
传统动物育种中,近交系数(F)通常基于系谱(pedigree)通过分子血缘关系矩阵A(numerator relationship matrix, A)对角线元素减1获得,反映两个等位基因因共同祖先而相同-by-descent(IBD,同源相同)的概率。然而系谱法依赖完整准确的系谱记录,且理论前提是无选择、无漂变、无迁移,这在经历长期强人工选择的商业化育种群体中难以满足。随着基因组选择(Genomic Selection, GS)和基因芯片技术的普及,可基于标记直接计算基因组近交系数,常用方法是由VanRaden提出的基因组关系矩阵G(genomic relationship matrix, G),假设基础群体等位基因频率为0.5(Type 1),其对角线元素可反映个体在标记位点的平均纯合性。已有研究发现,G矩阵得出的近交趋势往往比A矩阵更陡峭、近交系数绝对值更高,但造成此差异的根本原因尚缺乏系统性阐释,且两种方法的差异究竟源于基因组信息的真实性还是算法偏差尚无定论。为澄清这一核心问题,研究人员以德国—奥地利—捷克联合评估中的Fleckvieh(德系西门塔尔乳肉兼用牛)群体为对象,系统比较系谱与基因组近交估计,并按SNP等位基因频率随时间的变化特征对SNP分类,探讨其对基因组近交趋势的影响。
二、主要技术方法概述
研究人员选取2012–2021年出生且经Illumina BovineSNP50定制芯片质控后保留40,848个SNP的494,309头Fleckvieh牛(雌370,233头,雄124,076头),系谱来自常规育种值评估含18,325,735个个体。构建VanRaden Type 1基因组关系矩阵G(假定基础群体等位基因频率p=0.5,即最大杂合度),并据此计算对角线元素得基因组近交系数;同时由完整系谱构建A矩阵得常规近交系数FA。按雌牛分年度等位基因频率对出生年份回归(R2>0.3为有方向性趋势),将SNP划为"近交(inbreeding,趋固定)"、"方差(variance,趋0.5)"及"中性(neutral,R2≤0.3)"三类,分别构建全SNP矩阵Gf、剔除最强趋固SNP的Gmi、剔除最强趋中SNP的Gmv、剔除最强中性SNP的Gmn,以及仅含中性SNP的Gn。各矩阵近交系数按估计的基础群体杂合度(HB=0.347)重标至系谱基准。按年度出生队列计算平均近交系数F?、近交增量ΔF=1?exp(β)(β为ln(1?F?)对出生年的回归斜率)及近交有效种群大小Ne=1/(2×ΔF×L),L为代间隔(雄4.28年,雌4.46年,全体4.37年)。另由各SNP等位基因频率变化计算SNP水平ΔF,并汇总至染色体水平得染色体特异Ne
三、研究结果
Animals(实验动物)
平均代间隔全体为4.37年(公牛4.28年,母牛4.46年);系谱完整度5代为0.85,8代为0.67。
Categorizing SNPs(SNP分类)
经回归分析,40,848个SNP中19,593个为中性(R2<0.3),其中3,684个初始等位基因频率<0.1或>0.9接近固定;21,255个具方向性趋势——11,802个属"近交"类(趋等位基因固定),8,169个属"方差"类(趋0.5),1,284个跨越0.5阈值未归类。
Conventional vs. Genomic Inbreeding(常规与基因组近交比较)
系谱法得年均ΔF=0.114%(全体),对应Ne≈100;全SNP基因组Gf得ΔF=0.194%,Ne≈59。经重标后系谱平均近交?F=2.75%,Gf为1.92%。基因组法显示更陡的近交上升趋势和更小的有效群体大小,说明基因组近交系数捕捉到了系谱法无法反映的杂合度损失。
Alternative G matrices(替代G矩阵分析)
剔除3,000个最强趋固(inbreeding类)SNP后Gmi的ΔF明显减小;剔除3,000个最强趋中(variance类)SNP后Gmv的ΔF明显增大;剔除3,000个中性SNP后Gmn的ΔF与Gf几乎无差异。仅用中性SNP构建的Gn,其ΔF(雌0.117%,雄0.105%)与系谱A矩阵结果(雌0.112%,雄0.115%)非常接近。证明基因组近交趋势偏离系谱估计主要由受选择或漂变导致等位基因频率定向变化的SNP贡献,中性SNP子集给出的近交趋势方与经典IBD定义下的系谱近交趋势相当。
Additional information from SNP allele frequency changes(SNP等位基因频率变化提供的附加信息)
各染色体SNP水平ΔF均值换算得染色体特异Ne变异大(Chr7最高Ne=104,Chr20最低Ne=21),说明选择或连锁效应在基因组上分布不均。第20号染色体上多数SNP呈正向ΔF(杂合度降低),可能与历史上Red Holstein导入Fleckvieh的保留单倍型有关。
四、讨论与结论翻译(CONCLUSION)
本研究表明,常规近交估计与基因组近交估计的差异源于后者受SNP标记等位基因频率随时间定向变化的影响——这类变化使基因组近交系数额外纳入了由选择和漂变导致的群体杂合度下降,而系谱近交系数基于IBD概念且假设群体中等位基因频率稳定,故不体现此部分。仅基于中性SNP构建的G矩阵所得ΔF与系谱A矩阵近似,验证上述机制。
结论(译自原文CONCLUSION):
在本研究中,我们旨在深入理解导致常规与基因组近交趋势估计存在差异的主要机制。通过Fleckvieh群体的系谱和基因组数据说明,基因组近交估计值对用于构建基因组关系矩阵的SNP所表现出的等位基因频率变化高度敏感。因此,利用全部SNP构建的基因组关系矩阵及其相应近交系数的有效性取决于所用SNP芯片的基因组覆盖度及其对群体的代表性。在此条件下,我们认为基因组估计比依赖简化概率假设的常规估计能更真实地反映受检群体中遗传变异性的衰退情况。对特定染色体或特定基因组区域进行附加分析可提供有价值的信息,以指导基因组时代内群体遗传多样性的管理措施。
—END—
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号