
-
生物通官微
陪你抓住生命科技
跳动的脉搏
hmmibd-rs:一种改进的 hmmIBD 实现方法,用于从大规模疟原虫基因组数据中并行地进行基于身份的检测(identity-by-descent detection)
《Malaria Journal》:hmmibd-rs: an enhanced hmmIBD implementation for parallelizable identity-by-descent detection from large-scale Plasmodium genomic data
【字体: 大 中 小 】 时间:2026年02月19日 来源:Malaria Journal 3
编辑推荐:
单倍型基因组IBD检测算法hmmibd-rs通过多线程并行化和非均匀重组率映射优化,显著提升运算效率与检测精度,适用于大规模疟原虫基因组数据集分析。
“基于血统的识别”(Identity-by-descent,简称IBD)是指基因组对之间最近的遗传共祖关系,是群体基因组学中的一个基本概念。它被用于估计遗传相关性、检测选择信号以及理解种群人口统计学。IBD检测方法hmmIBD在推断单倍体基因组(包括恶性疟原虫Plasmodium falciparum)之间的IBD片段方面表现出高准确性,并被广泛用于疟疾基因组监测。然而,目前hmmIBD的单线程实现并未充分利用多处理器的计算能力,这使得该方法难以应用于大规模数据集,也无法处理基因组中不均匀的重组率。
我们开发了hmmIBD的增强版本,称为hmmibd-rs,该版本利用多线程计算来并行化基因组对的IBD推断,并支持用户自定义的重组率图,以便更准确地检测和过滤具有不均匀重组率的基因组中的IBD。我们还通过内置辅助功能优化了大规模IBD检测流程,可以直接从标准的二进制变异调用格式(BCF)预处理输入,并过滤IBD输出以减少磁盘使用量。
我们的新实现显著降低了IBD检测的计算时间,其减少程度与使用的CPU线程数量几乎成线性关系;使用128个线程时,2.2亿对模拟的恶性疟原虫染色体对的IBD检测时间从5.2天缩短至1.3小时,计算速度相比单线程hmmIBD算法提高了约100倍。在hmmibd-rs中考虑不均匀重组率后,可以减少重组冷点处IBD断点的过度估计以及重组热点处IBD断点的低估,从而提高IBD推断的准确性。不均匀重组率还有助于优化IBD片段的长度过滤,大幅降低重组冷点中的假阳性率。当应用于实际数据集(如MalariaGEN Pf7,包含约10,000个单克隆样本)时,hmmibd-rs能够在几小时内完成IBD检测,从而实现大规模基因组数据集的日内IBD分析流程。
hmmibd-rs在hmmIBD的基础上进行了改进和加速,实现了高效准确的IBD检测,是推进大规模疟疾基因组监测的重要工具。
“基于血统的识别”(IBD)是指基因组对之间最近的遗传共祖关系,是群体基因组学中的一个基本概念。它被用于估计遗传相关性、检测选择信号以及理解种群人口统计学。IBD检测方法hmmIBD在推断单倍体基因组(包括恶性疟原虫Plasmodium falciparum)之间的IBD片段方面表现出高准确性,并被广泛用于疟疾基因组监测。然而,目前hmmIBD的单线程实现并未充分利用多处理器的计算能力,这使得该方法难以应用于大规模数据集,也无法处理基因组中不均匀的重组率。
我们开发了hmmIBD的增强版本,称为hmmibd-rs,该版本利用多线程计算来并行化基因组对的IBD推断,并支持用户自定义的重组率图,以便更准确地检测和过滤具有不均匀重组率的基因组中的IBD。我们还通过内置辅助功能优化了大规模IBD检测流程,可以直接从标准的二进制变异调用格式(BCF)预处理输入,并过滤IBD输出以减少磁盘使用量。
我们的新实现显著降低了IBD检测的计算时间,其减少程度与使用的CPU线程数量几乎成线性关系;使用128个线程时,2.2亿对模拟的恶性疟原虫染色体对的IBD检测时间从5.2天缩短至1.3小时,计算速度相比单线程hmmIBD算法提高了约100倍。在hmmibd-rs中考虑不均匀重组率后,可以减少重组冷点处IBD断点的过度估计以及重组热点处IBD断点的低估,从而提高IBD推断的准确性。不均匀重组率还有助于优化IBD片段的长度过滤,大幅降低重组冷点中的假阳性率。当应用于实际数据集(如MalariaGEN Pf7,包含约10,000个单克隆样本)时,hmmibd-rs能够在几小时内完成IBD检测,从而实现大规模基因组数据集的日内IBD分析流程。
hmmibd-rs在hmmIBD的基础上进行了改进和加速,实现了高效准确的IBD检测,是推进大规模疟疾基因组监测的重要工具。