基于k-mer计数的无参考种内样本异常检测工具PISAD的开发与应用

【字体: 时间:2025年06月18日 来源:GigaScience 11.8

编辑推荐:

  研究团队针对基因组测序中样本混淆问题,开发了无需参考基因组的种内样本异常检测工具PISAD。该工具通过两阶段k-mer分析策略,在0.5×低覆盖度条件下实现高效检测,适用于牛、鸡等多倍体物种,为新兴物种研究提供质量控制新方案。

  

基因组测序研究的快速发展带来了海量异质性数据分析需求,但样本混淆(如标签错误)的风险也随之加剧。现有检测方法高度依赖参考基因组和预设变异位点,这限制了在非模式生物中的应用。随着研究向新物种扩展,开发不依赖参考信息的质量控制工具成为迫切需求。

中南大学计算机科学与工程学院的研究团队开发了PISAD(Phased Intraspecies Sample Anomalies Detection),这是一种基于k-mer计数的创新工具。该研究通过多物种验证表明,PISAD在0.5×超低覆盖度条件下仍保持优异性能,且适用于人、牛、鸡等多倍体物种。相关成果发表于《GigaScience》。

关键技术方法包括:1)基于k-mer频率分布的杂合区域启发式算法;2)并行优化的C++ SNP调用流程;3)双阶段评分系统(亲缘关系评分和似然评分);4)使用人类泛基因组参考联盟(HPRC)和脊椎动物基因组计划(VGP)的20个家系样本进行验证。

研究结果:

  1. SNP调用性能:优化后的Kmer2SNP算法将运行时间缩短25.2倍,内存消耗降低6.3倍。在4×覆盖度时SNP调用精度超过90%。

  2. 覆盖度影响:阶段1的覆盖度对工具性能影响较小,而阶段2数据覆盖度与检测灵敏度正相关。ONT数据因高错误率需要更高覆盖度。

  3. 比较分析:相比参考工具ntsm,PISAD将最低检测覆盖度从1×降至0.5×,且在ONT数据中表现更稳定。

  4. 多物种验证:在牛(Bos taurus)、鸡(Gallus gallus)等物种中,PISAD准确识别了所有匹配/非匹配样本,验证了工具的普适性。

结论与意义:
该研究突破了传统方法对参考基因组的依赖,首创基于k-mer的无参考样本检测框架。通过创新性地采用杂合SNP特异性位点和双阶段评分系统,实现了三大突破:1)检测覆盖度降至0.5×;2)内存消耗控制在40GB以内;3)支持Illumina、PacBio等多平台数据交叉验证。

尽管目前尚存在对高精度数据的依赖(阶段1)和内存消耗较高等局限,但PISAD作为上游质量控制工具,其无需比对、快速分析的特点,为大规模基因组项目提供了新的质控解决方案。未来通过算法优化和扩展至多倍体物种,有望进一步拓展其应用场景。研究团队已开源全部代码,推动该技术在基因组学研究中的广泛应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号