
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于k-mer计数的无参考种内样本异常检测工具PISAD的开发与应用
【字体: 大 中 小 】 时间:2025年06月18日 来源:GigaScience 11.8
编辑推荐:
研究团队针对基因组测序中样本混淆问题,开发了无需参考基因组的种内样本异常检测工具PISAD。该工具通过两阶段k-mer分析策略,在0.5×低覆盖度条件下实现高效检测,适用于牛、鸡等多倍体物种,为新兴物种研究提供质量控制新方案。
基因组测序研究的快速发展带来了海量异质性数据分析需求,但样本混淆(如标签错误)的风险也随之加剧。现有检测方法高度依赖参考基因组和预设变异位点,这限制了在非模式生物中的应用。随着研究向新物种扩展,开发不依赖参考信息的质量控制工具成为迫切需求。
中南大学计算机科学与工程学院的研究团队开发了PISAD(Phased Intraspecies Sample Anomalies Detection),这是一种基于k-mer计数的创新工具。该研究通过多物种验证表明,PISAD在0.5×超低覆盖度条件下仍保持优异性能,且适用于人、牛、鸡等多倍体物种。相关成果发表于《GigaScience》。
关键技术方法包括:1)基于k-mer频率分布的杂合区域启发式算法;2)并行优化的C++ SNP调用流程;3)双阶段评分系统(亲缘关系评分和似然评分);4)使用人类泛基因组参考联盟(HPRC)和脊椎动物基因组计划(VGP)的20个家系样本进行验证。
研究结果:
SNP调用性能:优化后的Kmer2SNP算法将运行时间缩短25.2倍,内存消耗降低6.3倍。在4×覆盖度时SNP调用精度超过90%。
覆盖度影响:阶段1的覆盖度对工具性能影响较小,而阶段2数据覆盖度与检测灵敏度正相关。ONT数据因高错误率需要更高覆盖度。
比较分析:相比参考工具ntsm,PISAD将最低检测覆盖度从1×降至0.5×,且在ONT数据中表现更稳定。
多物种验证:在牛(Bos taurus)、鸡(Gallus gallus)等物种中,PISAD准确识别了所有匹配/非匹配样本,验证了工具的普适性。
结论与意义:
该研究突破了传统方法对参考基因组的依赖,首创基于k-mer的无参考样本检测框架。通过创新性地采用杂合SNP特异性位点和双阶段评分系统,实现了三大突破:1)检测覆盖度降至0.5×;2)内存消耗控制在40GB以内;3)支持Illumina、PacBio等多平台数据交叉验证。
尽管目前尚存在对高精度数据的依赖(阶段1)和内存消耗较高等局限,但PISAD作为上游质量控制工具,其无需比对、快速分析的特点,为大规模基因组项目提供了新的质控解决方案。未来通过算法优化和扩展至多倍体物种,有望进一步拓展其应用场景。研究团队已开源全部代码,推动该技术在基因组学研究中的广泛应用。
生物通微信公众号
知名企业招聘