ntRoot:基于基因组数据的大规模人类祖先推断新方法

《Bioinformatics Advances》:ntRoot: computational inference of human ancestry at scale from genomic data

【字体: 时间:2025年11月10日 来源:Bioinformatics Advances 2.8

编辑推荐:

  本研究针对大规模队列研究中祖先信息缺失或不一致的问题,开发了ntRoot这一轻量级计算方法,能够直接从全基因组组装或测序数据中高效推断人类超级群体水平(大陆级别)的祖先成分。该方法采用参考引导、无需比对的单核苷酸变异检测框架,利用简洁的Bloom过滤器数据结构,在30-75分钟内完成分析,内存消耗13-68 GB,与ADMIXTURE高度一致(R2=0.9567),为基因组研究中的祖先表征提供了快速、资源高效且准确的解决方案。

  
在当今基因组学时代,大规模队列研究已成为探索人类疾病和种群历史的重要手段。然而,这些研究常常面临一个关键挑战:个体祖先信息往往不可用或测量不一致。祖先信息作为重要的协变量,对控制群体分层、减少关联研究中的假阳性结果至关重要。不同祖先背景的个体可能具有不同的遗传构成和疾病风险因素,但当祖先信息缺失时,研究人员要么需要耗费大量计算资源进行推断,要么只能将其作为混杂变量处理,这无疑影响了研究的准确性和可重复性。
传统祖先推断方法如STRUCTURE、ADMIXTURE等虽然广泛应用,但存在计算需求大、输入要求复杂等局限性。随着测序技术的飞速发展,数据通量呈指数级增长,迫切需要更灵活、高效的计算方法能够直接从测序数据中快速推断祖先信息,同时保持准确性和可重复性。
针对这一挑战,加拿大不列颠哥伦比亚省癌症研究所迈克尔史密斯基因组科学中心的René L. Warren研究团队在《Bioinformatics Advances》上发表了题为“ntRoot: computational inference of human ancestry at scale from genomic data”的研究论文,开发了一种名为ntRoot的轻量级计算方法,能够直接从全基因组组装或短读长/长读长测序数据中推断人类超级群体水平(大陆级别)的祖先成分。
ntRoot的技术核心建立在参考引导、无需序列比对的基因组变异检测框架上。该方法扩展了ntEdit的基编辑功能,用于SNV预测和祖先推断。其创新之处在于利用k-mer(长度为k的序列词)分析来识别基因组数据集中的替代碱基可能性,绕过了传统比对方法的计算复杂性。
关键技术方法包括:使用ntHits或btllib构建Bloom过滤器(一种简洁的概率数据结构)来存储样本的k-mer信息;通过ntEdit v2查询参考基因组(GRCh38)的每个k-mer,检测单核苷酸变异;将检测到的SNV与千人基因组计划(1000 Genomes Project,1kGP)集成变异调用集进行交叉参考;基于等位基因频率和非零AF SNV计数计算全局和局部祖先推断得分。
研究团队在超过600个人类基因组样本上验证了ntRoot的性能,包括完整基因组、草稿组装和280个独立生成的样本。数据集涵盖验证集(266个1kGP WGS样本)、发现集(279个SGDP WGS样本)和基准测试集(100个1kGP样本),以及多个全基因组组装(如HuRef、CN1、KOREF)。
3.1 ntRoot在WGS验证集上的GAI和LAI预测
在266个1kGP WGS验证集样本上,ntRoot显示出与1kGP指定标签高度一致的祖先推断结果。使用5Mbp或2Mbp图块进行局部祖先推断时,ntRoot准确估计了整个基因组的超级群体贡献。研究发现,基于LAI,混血美国人(AMR)、欧洲人(EUR)和南亚人(SAS)的祖先成分比非洲人(AFR)和东亚人(EAS)更多样化,这与历史上的人口流动情况一致。
虽然LAI提供的信息更丰富,但研究人员提醒不要仅从LAI推导全局祖先标签,因为在比较5Mbp和2Mbp分块方案时会出现少量不一致。在266个样本中,使用5Mbp图块时有1个哥伦比亚样本(0.4%),使用2Mbp图块时有3个样本(1个哥伦比亚样本,2个波多黎各样本,1.1%)与1kGP指定标签不一致。尽管如此,ntRoot基于LAI的GAI预测总体准确率仍然很高,5Mbp图块为99.6%,2Mbp图块为98.9%。
3.2 ntRoot在WGA数据上的LAI预测
ntRoot在三个个体的染色体级别二倍体HuRef、CN1和单倍体KOREF基因组组装上的LAI分析显示,主要祖先成分分别为欧洲(61%)、东亚(95%)和东亚(95%),这与每个个体已发表的欧洲、中国和韩国祖先一致。此外,ntRoot还正确地从HuRef和CN1的合成二倍体基因组混血中推断出东亚和欧洲是两个最主要的超级群体祖先。
3.3 ntRoot在WGS发现集上的预测
使用独立于1kGP的正交数据集(SGDP WGS发现集)进一步验证了ntRoot的方法。尽管SGDP数据集使用的地理名称与1kGP略有不同,且分析使用的是1kGP集成变异调用VCF,但位置和祖先分数是一致的。完整的SGDP集合包含来自相同群体的多个个体,ntRoot在这些生物重复间的预测是一致的。
3.4 资源需求、测序覆盖度影响和关键参数
与现有工具不同,ntRoot可以直接从基因组组装(即使是草稿阶段)推断祖先。处理单倍体WGA平均需要29分钟,最多消耗13 GB RAM;处理279个SGDP WGS样本(22-87倍基因组覆盖度,平均44x)平均在1小时36分钟内完成,最多需要68 GB RAM。
尽管WGS测序覆盖度不同,ntRoot仍能产生稳健的预测,最低可使用22倍覆盖度。在HG002细胞系(主要欧洲血统的德系犹太人)的Illumina WGS数据上进行更受控的测序覆盖度滴定实验表明,即使在12.5倍覆盖度下,ntRoot的预测仍然稳健。LAI欧洲分数(代表GAI和最大祖先分数)在完整覆盖度(44.83%)和12.5倍覆盖度(42.21%)之间的差异为2.62%,表明ntRoot在降低测序深度下的祖先预测稳定性。
ntRoot的预测似乎与测序数据类型无关,来自Illumina、PacBio(HiFi)和Oxford Nanopore Technologies(ONT,V14试剂盒)的长读长WGS数据对HG002产生一致的ntRoot祖先分数预测。观察到的最大百分比变异为0.7%,出现在LAI非洲分数(Illumina vs. ONT)和LAI欧洲分数(Illumina vs. ONT)中。在KOREF中,Illumina和PacBio WGS数据产生几乎相同的祖先分数预测也观察到这种一致性。
ntRoot祖先预测受参数k影响,较高的k值(如k45-k70)能准确推断GAI。然而,随着k减小,分数组成可能会波动。参数Y(指定调用SNV所需的最小支持分数)可在0-1之间调整,以分别强调更高的召回率或精确度。使用HG002的Genome in a Bottle SNV基准测试,研究人员确定k=55和Y=0.55(55%阈值)为帕累托最优选择,代表了经验支持的权衡,平衡了检测祖先判别SNV的灵敏度(0.8051)和精确度(0.8262)。
3.5 基准集性能:与其他GAI/LAI方法的比较
与SNVstory(一种较新的GAI工具,在大陆和次大陆祖先推断任务上比RFMix和ADMIXTURE表现更一致)相比,ntRoot具有相同或相似的准确性,同时运行速度快约4倍(ntRoot为1小时09分钟,SNVstory为4小时25分钟,ADMIXTURE为273小时42分钟),在从WGS数据推断100个1kGP个体的祖先时,计算内存使用少1.3-6.7倍。
虽然SNVstory输出GAI预测的概率(在WGS基准集上通常为0.99或1),但这些值不提供祖先组成的见解。相比之下,ntRoot和ADMIXTURE提供更详细的祖先分数,这对于表征具有显著祖先混血的群体和个体非常有用。祖先分数估计提供了更细致的遗传结构视图,因为最高分数并不总是与真实标签完美对齐,个体祖先不能简化为单一标签。
支持这一点的是,ntRoot与ADMIXTURE整体高度一致(R2=0.9567),在各个祖先上也高度一致,R2值从0.9237(AMR)到0.9974(AFR)不等。均方误差分析进一步支持了这种一致性,整体MSE为0.78%,各个祖先的MSE值如下:EAS-0.44%、SAS-0.70%、AMR-1.19%、AFR-0.06%、EUR-1.48%。
需要注意的是,ntRoot的LAI基于分数与先前报道的精细尺度遗传结构分析不同,并且在当前实现中,没有表征该级别遗传祖先的分辨率。因为ntRoot将其识别的SNV与从2,709个1kGP个体整理的集成变异调用集进行交叉参考,所以不期望得到精确的祖先组成。考虑到大陆(和群体)标签是由1kGP根据原始1kGP样本采集地点/个体当时居住地点指定的,并且ntRoot用于交叉参考其SNV的信息是基于相对有限数量(n=2,709)的个体构建的,这一点尤其如此。
ntRoot框架通过驱动脚本自动化每个步骤,显著简化了祖先预测流程的执行,与其他现代预测器通常复杂的流程相比具有明显优势。它建立在参考引导、无需序列比对的ntEdit范式之上,用于识别和交叉参考全基因组测序和全基因组组装数据集中的序列变异,并高效利用计算资源。
ntRoot框架本质上是可扩展的,可以扩展以纳入更大、更全面的参考数据集,如泛人类参考或gnomAD,以提高祖先分辨率。此外,该方法不仅限于人类基因组;它可以适用于具有可用群体参考数据的非人类物种。这些潜在的扩展突出了ntRoot在多样化基因组分析中更广泛的适用性和灵活性。
该研究开发的ntRoot方法通过其简化、内存高效、快速且易于执行的工作流程,生成GAI和LAI基于的混血谱系,为群体遗传学提供了详细见解。ntRoot预计将广泛促进地理级别祖先推断,从现代技术的测序数据中提供可靠、客观的人口统计信息。通过实现大规模快速准确的谱系推断,ntRoot填补了队列研究中的关键空白,并有望在基因组时代的关联研究中推进超级群体水平祖先预测。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号