基于对数比率的方法分析多个样本中的常染色体基因型频率
《Molecular Ecology Resources》:A Logratio Approach to the Analysis of Autosomal Genotype Frequencies Across Multiple Samples
【字体:
大
中
小
】
时间:2025年11月21日
来源:Molecular Ecology Resources 5.5
编辑推荐:
本文将Aitchison的logratio主成分分析(LR-PCA)扩展至多等位基因遗传多态性,通过compositional数据分析揭示Hardy-Weinberg平衡的新视角,提出一种新的多等位基因不均衡度量方法,并与经典亲合系数相关联。研究结合仿真和实际数据(如ABO基因座和STR标记),展示了LR-PCA在分析多等位基因数据中的有效性和可视化优势。
本研究探讨了在多等位基因遗传变异中,如何应用对数比值分析方法(Log-Ratio Analysis, CoDA)来揭示哈代-温伯格平衡(Hardy-Weinberg Equilibrium, HWE)的统计表现。哈代-温伯格平衡是群体遗传学中的一个基本原理,它描述了在没有选择、突变、迁移或遗传漂变的情况下,等位基因频率与基因型频率之间的关系。尽管Aitchison在25年前提出,对数比值主成分分析(Log-Ratio Principal Component Analysis, LR-PCA)可以用于揭示多等位基因变异中HWE的存在,但这一方法在遗传学领域并未得到广泛应用。本文旨在扩展Aitchison的研究,将对数比值方法应用于多等位基因的基因型组成,以更好地理解群体遗传学中的平衡与不平衡现象。
### 哈代-温伯格平衡与对数比值分析
哈代-温伯格平衡的基本原理指出,在一个处于平衡状态的群体中,等位基因频率决定了基因型的期望频率。例如,在一个双等位基因的遗传变异中,如果等位基因A和B的频率分别为 $ p $ 和 $ q $,那么在随机配子结合的假设下,基因型频率 $ f_{AA} $、$ f_{AB} $ 和 $ f_{BB} $ 分别为 $ p^2 $、$ 2pq $ 和 $ q^2 $。这一关系可以被重新表述为对数比值形式的表达式:
$$
2\ln(f_{AB}) - \ln(f_{AA}) - \ln(f_{BB}) = 2\ln(2)
$$
这个表达式展示了HWE在对数比值(logcontrast)形式下的表现。在遗传学研究中,这种形式可以用于分析基因型频率与等位基因频率之间的关系,并通过统计方法判断是否存在偏离平衡的情况。而这一思路可以被进一步推广到多等位基因的情况。
在多等位基因的遗传变异中,基因型的数量会随着等位基因数目的增加而迅速增长。例如,如果有 $ K $ 个等位基因,那么基因型的数量为 $ \frac{1}{2}K(K+1) $,其中包含 $ K $ 个纯合基因型(homozygotes)和 $ \frac{1}{2}K(K-1) $ 个杂合基因型(heterozygotes)。这些基因型的频率满足总和为1的条件,即:
$$
\sum_{i \le j} f_{ij} = 1
$$
在HWE条件下,所有杂合基因型的频率与对应等位基因频率的乘积之间存在某种对称性关系。例如,对于任意一对等位基因 $ A_i $ 和 $ A_j $,其杂合基因型频率的平方等于对应纯合基因型频率的乘积:
$$
f_{ij}^2 = 4 f_{ii} f_{jj}
$$
这表明,HWE不仅适用于双等位基因的情况,也可以推广到多等位基因系统中。这种推广的公式可以通过对数比值的转换进一步理解。例如,将方程两边取对数后,可以得到:
$$
\ln(f_{ij}^2) = \ln(4 f_{ii} f_{jj}) = \ln(4) + \ln(f_{ii}) + \ln(f_{jj})
$$
这展示了基因型频率与等位基因频率之间的对数比值关系,从而为对数比值主成分分析提供了理论基础。
### 对数比值主成分分析与遗传变异的可视化
对数比值主成分分析(LR-PCA)是一种用于分析组合数据的统计方法。组合数据的特点是所有元素的总和固定,因此传统的线性分析方法(如普通主成分分析)无法直接应用。LR-PCA通过将组合数据转换为对数比值空间,从而克服了这一限制。这一方法的核心在于对数比值变换,例如使用加法对数比值(alr)、中心对数比值(clr)或等距对数比值(ilr)变换。
在遗传学中,基因型频率可以被视为一种组合数据,因此可以使用LR-PCA对其进行分析。通过这种分析,可以得到基因型的主成分,并将这些主成分用于构建组合生物图(compositional biplot),从而可视化基因型频率与等位基因频率之间的关系。例如,在双等位基因系统中,基因型频率可以被映射到一个三维空间中,其中每个坐标轴代表一个对数比值变换后的变量。
在多等位基因系统中,这一方法可以进一步扩展。例如,假设有一个三等位基因的系统,等位基因频率分别为 $ p_1 $、$ p_2 $ 和 $ p_3 $,那么基因型频率可以表示为:
$$
f_{11} = p_1^2,\quad f_{12} = 2p_1p_2,\quad f_{13} = 2p_1p_3,\quad f_{22} = p_2^2,\quad f_{23} = 2p_2p_3,\quad f_{33} = p_3^2
$$
这些基因型频率的对数比值可以被用来构建生物图,从而直观地展示基因型频率的变化趋势。例如,在生物图中,如果所有基因型频率都符合HWE的预期,那么它们将落在一个特定的几何结构中,例如一个平面或超平面。而如果某些基因型频率偏离了这一结构,则可能意味着群体中存在某种不平衡,例如遗传漂变、选择压力或群体结构等因素。
### 组合数据的统计特性
在组合数据分析中,统计量的计算通常基于对数比值变换后的数据。例如,组合数据的均值通常采用几何均值(geometric mean)来计算,而方差则通过对数比值空间中的差异来衡量。对于双等位基因的基因型频率,几何均值为:
$$
g_m(f_{AA}, f_{AB}, f_{BB}) = \left(f_{AA} f_{AB} f_{BB}\right)^{1/3}
$$
而方差则可以通过以下公式计算:
$$
\frac{1}{2D} \sum_{i=1}^D \sum_{j=1}^D V\left(\ln\left(\frac{x_i}{x_j}\right)\right)
$$
其中 $ D $ 是基因型的数目,$ x_i $ 和 $ x_j $ 是基因型频率。这种方差计算方式与传统的线性方差不同,它反映了组合数据中不同部分之间的相对差异。
对于多等位基因系统,组合数据的统计特性更为复杂。例如,当有 $ K $ 个等位基因时,基因型的总数为 $ \frac{1}{2}K(K+1) $,其中每个基因型的频率都满足总和为1的条件。此时,HWE的条件可以被表示为多个对数比值方程的集合。例如,对于任意两个等位基因 $ A_i $ 和 $ A_j $,其对应的杂合基因型频率的平方等于对应纯合基因型频率的乘积:
$$
f_{ij}^2 = 4 f_{ii} f_{jj}
$$
这一关系可以通过对数比值变换进一步简化。例如,取对数后得到:
$$
\ln(f_{ij}^2) = \ln(4 f_{ii} f_{jj}) = \ln(4) + \ln(f_{ii}) + \ln(f_{jj})
$$
这表明,HWE的条件在对数比值空间中表现为一组线性关系。通过LR-PCA,这些线性关系可以被进一步提取,从而揭示基因型频率与等位基因频率之间的内在联系。
### 组合生物图的构建与应用
组合生物图是一种用于可视化组合数据的工具,它能够将高维数据投影到二维或三维空间中,从而帮助研究人员更直观地理解数据的结构。在遗传学中,生物图可以用于展示不同群体的基因型频率差异,或者用于分析特定遗传标记在不同群体中的分布情况。
在构建组合生物图时,通常使用中心对数比值变换(clr)来转换原始数据。转换后的数据可以用于计算主成分,并将这些主成分作为生物图的坐标轴。例如,对于双等位基因系统,可以通过LR-PCA得到两个主成分,并将这些主成分用于构建生物图。
在多等位基因系统中,生物图的构建更为复杂。例如,假设有一个三等位基因的系统,等位基因频率分别为 $ p_1 $、$ p_2 $ 和 $ p_3 $,那么对应的基因型频率为:
$$
f_{11} = p_1^2,\quad f_{12} = 2p_1p_2,\quad f_{13} = 2p_1p_3,\quad f_{22} = p_2^2,\quad f_{23} = 2p_2p_3,\quad f_{33} = p_3^2
$$
这些基因型频率可以被转换为对数比值空间中的变量,并用于构建生物图。例如,通过中心对数比值变换,可以得到:
$$
\mathrm{clr}(f_{ij}) = \ln\left(\frac{f_{ij}}{g_m(f)}\right)
$$
其中 $ g_m(f) $ 是基因型频率的几何均值。通过这种转换,可以将组合数据的结构可视化,并进一步分析不同群体之间的差异。
### 组合数据与HWE的关系
在HWE条件下,基因型频率与等位基因频率之间存在一系列严格的数学关系。例如,对于双等位基因系统,基因型频率的平方等于对应纯合基因型频率的乘积。这一关系可以推广到多等位基因系统中,即:
$$
f_{ij}^2 = 4 f_{ii} f_{jj}
$$
这一公式表明,在HWE条件下,杂合基因型频率与纯合基因型频率之间存在某种比例关系。通过取对数,可以将这一关系转化为线性方程:
$$
\ln(f_{ij}^2) = \ln(4 f_{ii} f_{jj}) = \ln(4) + \ln(f_{ii}) + \ln(f_{jj})
$$
这为组合数据分析提供了一个新的视角,使得HWE的条件可以被更直观地理解。
此外,HWE还对组合数据的方差产生影响。例如,在双等位基因系统中,基因型频率的方差可以表示为:
$$
\frac{1}{2D} \sum_{i=1}^D \sum_{j=1}^D V\left(\ln\left(\frac{x_i}{x_j}\right)\right)
$$
其中 $ D $ 是基因型的数目,$ x_i $ 和 $ x_j $ 是基因型频率。在HWE条件下,这一方差通常表现出某种对称性,因为所有基因型频率都遵循相同的数学规律。
### 实证研究与数据应用
为了验证这些理论关系,本文使用了多种实际数据集。其中包括一个双等位基因的基因型数据集(Glyoxalase基因),以及两个多等位基因的数据集:来自1000 Genomes项目的ABO基因和用于法医学分析的STR标记(如D2S441)。这些数据集展示了HWE在不同遗传标记中的表现。
例如,在ABO基因的分析中,通过高覆盖率的全基因组测序数据,可以推断出个体的基因型频率,并进一步计算其对数比值变换后的主成分。这些主成分可以用于构建生物图,从而直观地展示基因型频率的变化趋势。在STR标记的分析中,可以使用对数比值变换后的数据来构建生物图,并分析不同群体之间的差异。
此外,本文还提出了一种用于多等位基因系统中的不平衡(disequilibrium)度量方法。这一方法基于对数比值变换,并与传统的亲缘系数(inbreeding coefficient)建立了联系。通过这一方法,可以更准确地衡量不同群体之间的遗传差异。
### 结论与未来展望
本文通过将对数比值分析方法应用于多等位基因的基因型组成,揭示了HWE在这一系统中的表现。通过LR-PCA和组合生物图,研究人员可以更直观地理解基因型频率与等位基因频率之间的关系,并判断是否存在偏离平衡的情况。此外,本文还提出了一种新的不平衡度量方法,并展示了其在实际数据中的应用。
未来的研究可以进一步探索对数比值分析方法在多等位基因系统中的其他应用,例如用于分析复杂遗传结构或评估特定遗传标记在不同群体中的分布情况。此外,也可以考虑将这一方法与其他统计工具结合,以提高遗传数据分析的准确性和效率。通过不断扩展和改进组合数据分析方法,我们可以更深入地理解遗传变异的机制,并为遗传学研究提供新的工具和视角。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号