编辑推荐:
为解决多性状基因组预测准确性问题,山东农业大学的研究人员开展了整合局部遗传相关性(LGC)提升多性状基因组预测的研究,结果表明整合 LGC 可提高预测准确性,对相关领域研究意义重大。
在生命科学和医学领域,精准预测个体的表型和遗传特征一直是研究的重点。基因组预测(Genomic prediction)作为一种强大的工具,能够基于基因组信息预测个体复杂性状的表型或遗传价值,在人类、动植物等多个领域都有广泛应用。比如在人类医学中,它可以预测个体患某些疾病的风险,助力个性化医疗;在动植物育种方面,能加速遗传改良,降低育种成本。
然而,传统的多性状基因组预测方法存在一定的局限性。许多复杂性状之间存在遗传相关性,这是由于基因的多效性影响多个性状。但传统方法(如 MTGBLUP)仅考虑了性状之间的全局遗传相关性,忽略了局部遗传相关性(Local genetic correlation,LGC),即特定基因组区域内基因产生的相关性 。实际上,基因在不同区域对全局遗传相关性的贡献不同,有些区域可能产生正相关,有些可能是负相关,甚至没有相关性。比如,虽然阿尔茨海默病(AD)与 II 型糖尿病(T2D)、低密度脂蛋白(LDL)的全局遗传相关性不显著,但在特定基因组区域却存在高度显著的 LGC。因此,探究 LGC 对多性状基因组预测准确性的影响,并开发新的模型显得尤为重要。
为了解决这些问题,山东农业大学的研究人员开展了一项深入研究。他们提出了三种将 LGC 纳入多性状基因组预测模型的新模型(LGC-model-1、LGC-model-2 和 LGC-model-3),并利用模拟数据以及来自人类、奶牛和猪群体的三个真实数据集对这些模型的性能进行评估。研究结果表明,与传统的基于全局遗传相关性的多性状基因组预测方法相比,整合 LGC 的模型平均能将预测准确性提高 12.76%±2.07%。这一研究成果为多性状基因组预测提供了新的思路和方法,对推动精准医学和动植物遗传改良具有重要意义,该研究发表于Communications Biology期刊。
在研究方法上,研究人员主要采用了以下关键技术:一是利用基因组残差最大似然法(GREML)估计全局遗传相关性,通过构建双变量线性混合模型实现;二是使用 LAVA 软件和全基因组关联研究(GWAS)汇总统计数据来估计 LGC,先将基因组划分为半独立的连锁不平衡(LD)块,再进行单性状 GWAS 获取所需数据;三是运用多种基因组预测模型,包括单性状基因组最佳线性无偏预测(STGBLUP)、传统的多性状基因组最佳线性无偏预测(MTGBLUP)以及新提出的三种 LGC 模型,并通过 10 折交叉验证评估模型的预测准确性。研究使用的样本队列包括来自英国生物银行(UK Biobank)的人类数据、中国荷斯坦奶牛数据和杜洛克猪数据。
下面来看看具体的研究结果:
- 模拟研究:基于英国生物银行的真实基因型数据进行模拟,设置了三种不同的场景。在所有情况下,多性状模型(MTGBLUP 和 LGC 模型)的表现均优于单性状模型(PRSice-2 (C + T)、LDpred2 和 STGBLUP)和 wMT-BLUP,但在性状对的全局遗传相关性为零或非常弱时,MTGBLUP 与 STGBLUP 表现相似。在场景 1 和场景 2 中,LGC-model-2 表现最佳;在场景 3 中,LGC-model-1 表现最佳12。
- 全局和局部遗传相关性估计:对真实数据集的研究发现,全局遗传相关性范围从强正相关到强负相关不等。通过 LAVA 软件划分基因组区域并估计 LGC,发现不同性状对的 LGC 在不同区域差异很大,从强正相关到零相关再到强负相关都有。而且,全局遗传相关性越强,具有显著 LGC 的区域越多34。
- 真实数据集的基因组预测准确性:在人类、奶牛和猪的数据集上,MTGBLUP 和 LGC 模型在大多数情况下优于单性状方法和 wMT-BLUP。在人类数据集中,LGC-model-1 和 LGC-model-2 表现突出;奶牛数据集中,LGC-model-1 表现最佳;猪数据集中,LGC-model-2 略胜一筹56。
研究结论和讨论部分指出,LGC 在基因组中普遍存在且具有异质性。整合 LGC 到多性状基因组预测中,能普遍提高预测准确性,在本研究使用的真实数据集中,相比传统 MTGBLUP 方法,相对提升最高可达 135.97%(平均约 12.76%)。对于不同的数据集和性状对,应根据 LGC 的特点选择合适的模型,当有较多显著 LGC 区域时,LGC-model-1 更优;否则,LGC-model-2 可能是更好的选择。此外,研究还发现性状的多基因性会影响模型的相对性能,但在真实数据集中难以获取这一信息。总体而言,该研究成果为 LGC 在多性状基因组预测中的广泛应用奠定了基础,有望推动不同性状和物种的相关研究和应用发展。