编辑推荐:
本文介绍 PANE 方法评估混合个体祖先成分,在多场景准确高效,助力人类遗传研究。
### 背景
人类种群历史深受过去混合事件的影响,这些事件对当今观察到的遗传变异模式意义重大。众多跨学科研究表明,几乎所有人类种群在历史上都有复杂的互动,包括迁移和混合,这些互动导致了遗传物质的转移,产生了新的种群。鉴于此,许多算法致力于推断混合种群的遗传组成,且研究发现使用定相基因型数据能更好地描述遗传种群结构。
不过,现有方法在处理低覆盖度古代 DNA(aDNA)数据时往往存在局限。虽然插补法可通过推断缺失的单核苷酸多态性(SNP)来增加样本信息,但准确性依赖于样本数据质量和参考面板特性。qpAdm 是分析古代数据常用的方法,它能处理 aDNA 分析中常见的假单倍体基因型,并模拟涉及多个来源的混合事件,但筛选混合事件的潜在来源和合适种群的过程繁琐,且存在较高的假发现率。此外,还有一种基于非负最小二乘法(NNLS)处理 f4 统计量矩阵的方法,应用相对较少。主成分分析(PCA)在种群遗传学中广泛用于量化种群或个体间的遗传亲和力,F 统计量与 PCA 存在几何关系,理论上可利用 PC 坐标推断目标种群的混合比例,基于此,研究提出了 PANE(Principal component Ancestry using NNLS Estimation)方法,旨在借助 PCA 和 NNLS 评估混合个体的祖先组成。
PANE 方法介绍
PANE 的基本原理是利用 PCA 和 NNLS 评估混合个体的祖先成分。在该方法中,PCA 空间应基于高质量、低缺失度的数据构建,如现代序列数据、高覆盖度数据或插补后的古代基因型数据。其核心在于利用混合样本和假定来源在 PC 空间中的相对坐标,通过 NNLS 总结目标的祖先比例。需要注意的是,构建 PC 空间的群体需能描述感兴趣种群之间的遗传差异,否则会影响 PANE 的效率。
实验设计
- 模拟数据集:为全面测试 PANE 的性能,研究人员精心构建了多种模拟数据集。首先是无缺失基因型的模拟数据集,包含 20 个未混合和 16 个混合种群。这些混合种群由两个或三个来源混合而成,次要来源的贡献比例在 5% - 40% 之间,且混合来源涵盖了从高度分化到密切相关的种群,两两种群间的 Fst 值在 0.01 - 0.23 之间,还模拟了瓶颈事件。此外,针对每个真实来源,都设置了一个 3 千年前分裂的姐妹群体作为代理来源。其次是模拟古代(假单倍体)数据,通过引入不同程度的缺失数据(缺失率从 10% - 50% 不等)以及创建假单倍体基因型来模拟 aDNA 数据的质量,最终得到不同 SNP 数量的数据集。
- 真实数据集:使用的真实数据集来源广泛且经过多步筛选。从 1240K + HO 数据集(version V52.2)出发,依据 Aneli 等人的方法,筛选出符合特定条件的古代和现代样本。古代样本需来自西欧亚国家,现代样本则选取特定区域且排除部分群体,经过多次筛选和合并其他已发表数据集的样本,最终得到包含 4740 个古代样本和 1668 个现代样本、206,363 个 SNP 的真实数据集。
- 对比方法:为评估 PANE 的性能,研究选取了 qpAdm、Rye 和 Unlinked - ChromoPainter NNLS 作为对比方法。qpAdm 利用预计算的 f2 统计量评估混合种群的祖先成分和相对比例;Rye 通过自定义 R 脚本转换 smartpca 的 PCA 输出结果进行分析;ChromoPainter 则使用 unlinked 模型,为每个 SNP 分配分数来推断种群结构。
实验结果
- PANE 在模拟数据上的表现
- 无缺失基因型模拟数据:在基于种群的方法中,对于 16 个模拟混合种群,PANE 能成功将主要祖先成分准确分配到真实来源,最大误差为 0.014,最大标准误差为 0.012。在个体层面分析时,不同混合比例和来源分化时间的种群平均误差有所差异,70 - 30% 混合的种群,若混合来源分裂时间超过 9 千年,平均误差低于 0.029,若分裂时间小于等于 9 千年,误差增加到 0.038;较低来源贡献的种群平均误差最大为 0.022;三向混合种群误差相对较高,部分个体对主要来源的分配贡献估计误差超过 0.05,但仅有 1 个个体误差大于 0.1。在使用代理来源的测试中,PANE 能识别所有 16 个测试种群的真实来源代理,对于双向混合种群,平均误差为 0.033,误差在混合来源种群遗传相似性较高时会增大,但未超过 0.057;三向混合种群最大误差为 0.031。在个体层面,PANE 能正确分配双向 70 - 30% 混合个体的祖先比例,但对于次要来源贡献为 10% 和 5% 的种群,次要来源贡献常被低估或完全忽略。
- 假单倍体模拟数据:使用假单倍体模拟数据测试时,即使目标和来源样本为假单倍体且包含缺失基因型,PANE 仍能正确检测出最接近的混合来源,平均分配误差最大为 0.033,通常能识别真实来源并为其他来源分配少量额外成分,最大为 0.004,标准误差也较低,最大为 0.017。不过,尽管平均误差低,但单个样本的最大误差可达 0.248,主要是由于错误分配到与来源最密切相关的群体。
- 有限参考遗传变异可用性模拟数据:在仅使用代理来源而非真实来源的场景下,研究聚焦于基于种群的方法。结果显示,对于来源分歧超过 24 千年的群体,误差估计低于 0.043;来源在 24 千年分裂的群体,误差增加到 0.11;而来源更接近的群体,误差估计在 0.16 - 0.58 之间,标准误差估计也呈现类似趋势。
- 遗传漂变对 PANE 推断的影响:评估遗传漂变对 PANE 推断的影响时发现,遗传漂变会降低推断的可靠性,其影响程度与分裂后经过的时间成正比。在个体层面分析中,PANE 处理 500 代前混合的种群时,最大误差为 0.15;在种群平均层面,误差为 0.12。
- PANE 与现有工具的比较:将 PANE 与 qpAdm、Rye 和 ChromoPainter NNLS 进行比较,结果表明 PANE 在估计祖先比例的准确性上与其他方法相似,与 qpAdm、Rye 的相关性均高于 0.95。但在处理亚大陆混合的种群时,四种方法的准确性均有所下降。在计算速度方面,PANE 表现出色,处理 100 个个体的计算时间为 454 秒(SD = 5 秒),而 Rye 为 575 秒(SD = 14.1 秒),qpAdm 为 2011 秒(SD = 22.399 秒),ChromoPainter 则长达 156 分钟 23 秒(9383 秒,SD = 1148 秒)。
- PANE 在真实数据上的表现:使用古代欧亚种群的真实数据集测试 PANE,将 1380 个古代个体投影到由 1668 个现代个体推断出的前 10 个主成分上,以 5 个假定来源进行分析。结果显示,PANE 捕获的祖先成分与原始论文中的 F4admix 结果显著相关(R = 0.92,p < 0.0001),证实了其在真实场景中的可靠性。进一步分析特定地理区域和时间跨度的个体祖先组成,发现了许多有意义的遗传现象,如安纳托利亚地区 3000 年前左右高加索 / 黎凡特血统增加,当地安纳托利亚血统随后减少;5000 年前左右 CHG 相关血统引入草原种群;爱琴海青铜时代种群中 CHG 血统的代表性低于 EHG 血统,暗示新石器时代后该地区存在显著的基因流动等。不过,PANE 与 F4admix 的推断结果仍存在一些差异,在 6750 个估计中,有 273 个高度不一致的估计(HDE),涉及不同祖先成分的估计差异,可能与样本缺失率、参考面板等因素有关。此外,使用 PANE 测试英国农民 WHG 血统来源的假设,证实了英国和伊比利亚新石器时代样本的 WHG 比例相似,表明它们有共同的 WHG 来源;在东南亚种群分析中,PANE 与 qpAdm 的估计结果在多数情况下相似,仅 AN 和 Ganj Dareh Neolithic 的比例估计存在差异;使用 PANE 模拟现代人类与古人类的混合,能检测到不同地区古人类血统的存在情况。
讨论
PANE 作为一种基于 PCA 和 NNLS 的全球祖先探索方法,能够准确估计混合群体或单个样本的祖先比例。该方法的优势在于可利用整个 PC 空间,能处理多种场景,且在大多数测试场景中表现出高准确性,即使处理含有缺失变异的假单倍体数据时,最大分配误差也仅为 3%。与其他全球祖先分配工具相比,PANE 运行速度更快,准确性相当或更高,且无需内群或外群,基于用户定义的祖先来源进行简单直接的估计。
然而,PANE 也存在一定的局限性。该方法依赖于目标群体是混合群体的假设,若目标群体因其他人口统计学因素(如距离隔离、遗传漂变)落在 PC 空间的特定区域,可能会影响分配准确性。此外,PCA 易受多种偏差影响,如种群间样本量差异、确定偏差、SNP 间连锁不平衡、数据缺失等,这些偏差会扭曲 PC 空间,导致 PANE 无法区分不同的进化模型,因此不能将其作为混合事件的正式测试工具,而应与其他分析方法(如 F3 混合统计或 LD 衰减方法)结合使用,以进一步验证混合事件。
结论
PANE 是一种强大且灵活的工具,为分析个体和混合种群的祖先比例提供了更快速、精确的选择。借助 PCA 和 NNLS 的联合使用,它能有效处理包括数据不完整在内的多种情况。尽管遗传漂变可能会影响其祖先推断的准确性,但在大规模基因组数据集的特征描述方面,PANE 仍然具有重要价值,可广泛应用于补充更具体的分析,为深入理解人类种群的遗传复杂性提供有力支持。