编辑推荐:
在基因组研究中,准确进行结构变异(SV)基因分型至关重要。研究人员开展了 “K-mer analysis of long-read alignment pileups for structural variant genotyping” 主题研究。结果显示,kanpig 在单样本基因分型一致性上达 82.1% ,远超现有工具。该研究为大规模 SV 研究提供新方法,提升研究可靠性。
在基因组研究的广阔领域中,结构变异(Structural Variant,SV)基因分型就像是一把神秘的钥匙,掌握它对于解锁生命遗传信息的奥秘起着至关重要的作用。然而,目前在这个领域却面临着诸多挑战。对于较小的突变(如单核苷酸变异 SNV 和插入缺失 indels)而言,创建全基因分型变异文件(VCF)的过程已相对成熟、高效。但当涉及到结构变异(即大于 50 碱基对的基因组改变)时,情况就变得复杂起来。当前最先进的工作流程是先对每个样本进行 SV 发现,再通过诸如 truvari 等方法合并,之后重新评估每个 SV 在所有样本中的存在与否(即基因分型)。而且现有的基因分型工具大多在单样本上进行基准测试,常用的 SV 基准(如 GIAB v0.6 基准)存在局限性,它整合了短读长和有噪声的长读长发现的变异,且定义的 Tier 1 区域排除了片段重复和复杂 SV,无法全面反映真实的 SV 情况。随着研究的深入,使用更新的长读长或全基因组组装的研究表明,SV 的数量和复杂性远超 GIAB v0.6 Tier 1 区域中发现的子集。此外,在群体中进行 SV 基因分型时,由于存在多个相邻和 / 或重叠的 SV 等位基因,评估复杂性大大增加。在这样的背景下,开展更精准、高效的 SV 基因分型研究迫在眉睫。
为了解决这些难题,来自美国贝勒医学院人类基因组测序中心(Baylor College of Medicine Human Genome Sequencing Center)等机构的研究人员展开了深入探索。他们的研究成果发表在《Nature Communications》上,为该领域带来了新的曙光。
研究人员用到的主要关键技术方法包括:利用人类泛基因组参考联盟(HPRC)的高质量组装和 GRCh38 参考基因组,通过 dipcall v0.3 生成 SV;使用 PacBio HiFi 和牛津纳米孔技术(ONT)的长读长测序数据;运用 truvari 工具进行 SV 的比较和评估;采用 kanpig 算法进行 SV 基因分型,该算法包含构建变异图、提取比对堆积、聚类单倍型等关键步骤。
下面来详细看看研究结果:
- kanpig 算法:kanpig 算法主要包含四个关键步骤。首先,解析包含 SV 的 VCF 文件,确定彼此距离在指定阈值内的 SV “邻域”;接着,构建变异图,其中节点代表 SV,有向边连接下游非重叠的 SV;然后,从 BAM 文件中解析跨越 SV 邻域的长读长比对,生成堆积并聚类单倍型;最后,通过广度优先搜索找到变异图中得分最高的路径,以此确定基因型。该算法的创新之处在于将序列表示为 k-mer 向量(默认 k 值为 4 碱基对),通过堪培拉距离(Canberra distance)衡量序列相似性。实验表明,k-mer 向量的堪培拉相似性与传统序列相似性的皮尔逊相关系数高达 0.994,能准确测量相邻 SV 的相似性。同时,该算法通过 k-means 聚类将读取聚类为单倍型,并避免路径通过重叠变异,有效防止了单倍型产生冲突的基因型。
- 建立结构变异基因型基线:研究人员利用来自 HPRC 的高可信度组装,通过 dipcall v0.3 和 GRCh38 从 47 个遗传多样的基因组组装中创建 SV。将 HPRC HG002 SVs 与 GIAB v1.1 SVs 比较后发现,该流程生成的基线 VCF 质量较高,可用于后续测试。
- 单样本 SV 基因分型:研究人员收集了 47 个 HPRC 个体的 32x 覆盖度 PacBio HiFi 长读长数据,使用 kanpig 和其他三个长读长 SV 基因分型工具(SVJedi-graph、sniffles2、cuteSV)进行常染色体 SV 基因分型。结果显示,kanpig 的平均基因分型一致性达到 82.1% ,高于其他工具。在不同覆盖度下,kanpig 的性能也表现出色,8x 覆盖度时其性能仍高于其他工具在 32x 时的表现。此外,所有工具对缺失型 SV 的基因分型一致性高于插入型 SV,而 kanpig 在不同 SV 类型间的性能失衡最小。当考虑 SV 与串联重复(Tandem Repeats,TRs)的重叠情况时,kanpig 在 TR 内和 TR 外的基因分型一致性分别为 81.7% 和 89.0%。在有相邻变异的情况下,kanpig 的平均基因分型一致性最高,为 70.9%,而其他工具在处理此类情况时表现较差。在基因型分布方面,kanpig 的平均杂合 / 纯合(het/hom)比最接近真实情况,且参考纯合错误率和缺失率也处于合理范围。
- 单样本发现基因分型:多数生成 SV 的项目无法获取高质量组装,而是使用如 sniffles 等工具从原始读取比对中发现 SV。研究人员使用 sniffles 在 47 个 HPRC 32x 样本上发现 SV 并进行基因分型测试,与基于组装的 SV 集比较。结果表明,kanpig 的基因型一致性平均为 85.0% ,高于其他工具。同时,kanpig 在处理发现的变异时,能有效去除更多的假阳性变异,同时保持较高的真阳性率。
- 多样本 SV 基因分型:为测试 kanpig 处理多样本 VCF 的能力,研究人员合并了 47 个 HPRC 样本的 sniffles 发现变异,并使用 truvari 进行处理。结果显示,kanpig 在多样本 SV 基因分型中的基因型一致性最高,达到 84.9%,在处理组装衍生的多样本 SV 时,基因型一致性也高达 86.6% ,远高于其他工具。此外,kanpig 在多样本 SV 基因分型中的精度较高,能有效避免其他工具出现的冲突基因型问题。
- 纳米孔 R9/R10 测序性能:研究人员使用公开可用的 R9 和 R10 重复样本测试 kanpig 对 ONT reads 的利用能力和读长准确性对基因分型的影响。结果发现,kanpig 在 R9 和 R10 reads 上的基因分型一致性分别为 77.8% 和 80.1%。与其他工具相比,kanpig 对读长碱基准确性的依赖性更强。在基因型一致性方面,SVJedi 在多次重复中表现最稳定,kanpig 次之。
- 计算性能:kanpig 用 Rust 编写,具有高速度和内存安全性,遵循开源 MIT 许可证。在计算性能测试中,kanpig 在处理单样本和多样本 VCF 时,无论是在单核心还是多核心情况下,都表现出较快的速度和较低的内存消耗。
在研究结论和讨论部分,研究人员详细介绍并评估了 kanpig 这一长读长 SV 基因分型工具。通过多方面的测试和比较,证明了 kanpig 在基因分型准确性上优于其他工具,尤其是在处理相邻 SV 时表现出色。同时,研究也指出理想的 SV 基因分型方法不应只追求最大化样本中 SV 的数量,而应准确处理相邻 SV,避免产生生物学上不合理的单倍型。此外,研究还强调了基准测试数据集的重要性,更复杂、全面的基准(如 GIAB v1.1 SVs 和 HPRC assemblies)有助于评估工具的真实性能。虽然 kanpig 目前表现优异,但仍有改进空间,如优化 BAM/CRAM 访问模式、利用单倍型标记读取、处理更大的 SV 等。
总的来说,这项研究成果为大规模 SV 研究提供了可靠的工具和方法,有望推动生物学和临床研究取得新突破,提高群体 SV 研究结果的可靠性,让我们对基因组结构变异有更深入、准确的认识,为未来精准医学的发展奠定了坚实基础。