微生物病原体流行病学研究中短读长和长读长全基因组测序方法的比较
《mSystems》:A comparison of short- and long-read whole-genome sequencing for microbial pathogen epidemiology
【字体:
大
中
小
】
时间:2025年11月15日
来源:mSystems 4.6
编辑推荐:
基因组组装与变异数据分析中,牛津纳米孔长读测序与Illumina短读技术的对比研究。长读测序在基因组完整性(平均N50达3,784,004 bp)和错误率(<50×测序深度下平均23个SNP错误)方面显著优于短读技术,但需通过碎片化处理(150-400 bp)提升变异数据准确性,其中Graphtyper和Clair3工具表现最佳。研究证实长读测序在病原体基因组学与流行病学分析中具有足够可靠性。
本研究聚焦于利用全基因组测序技术,评估Illumina短读长测序和Oxford Nanopore长读长测序在植物病原菌基因组组装和变异检测中的表现。随着基因组学技术的不断进步,测序技术已从传统的短读长测序发展为能够生成更长读长的长读长测序技术,使得研究人员能够更全面地理解病原菌的进化、传播模式和诊断信息。然而,长读长测序的准确性和分析策略仍需进一步优化。本文通过比较两种测序技术的性能,探讨了在病原菌群体水平研究中如何有效利用长读长数据。
研究者选取了116株来自植物样本的Agrobacterium菌株,其中部分菌株来自OSU植物诊所、Larry Moore和Thomas Burr菌种库,以及加州农业部(CDFA)的菌株集合。这些菌株在植物宿主、采集地点和时间上具有较高的多样性。通过分别使用Illumina短读长和Oxford Nanopore长读长技术生成数据,并利用多种分析流程对数据进行处理和比较。研究发现,使用长读长技术进行基因组组装的完整性显著优于短读长技术,且长读长组装的错误率较低。此外,变异检测流程在处理长读长数据时表现出差异,但通过适当的数据预处理,如将长读长数据片段化,能够显著提升短读长流程在群体水平上的变异检测准确性。
研究团队对长读长数据集的序列质量进行了详细评估,发现Oxford Nanopore测序技术的最新版本(v5.0.0)在读长质量和准确率方面都有所提升。平均读长达到6,835 bp,N50值为13,385 bp,表明长读长数据具有较高的连续性和完整性。通过比较不同基因组组装方法(如SPAdes、Flye和Unicycler)的性能,发现长读长组装在平均N50值上显著高于短读长组装,而混合数据集的组装质量也介于两者之间。此外,通过Polypolish等工具对长读长数据进行优化后,组装错误率明显降低,尤其是在读长覆盖度较高的情况下。这表明,随着Oxford Nanopore技术的不断改进,其在基因组组装方面的表现已接近或超越传统短读长技术。
在变异检测方面,研究者测试了多种工具,包括GATK、Graphtyper、Bcftools和Clair3。这些工具中,Graphtyper和GATK在短读长数据中表现出较高的准确性,而Clair3则在长读长数据中展现出一定的潜力,但其准确性受到过滤阈值的影响。当使用较严格的过滤阈值(如QUAL > 28)时,Clair3在长读长数据中的准确性与短读长流程相当。研究还发现,将长读长数据片段化后,短读长流程在变异检测中的表现优于专门为长读长设计的工具。这表明,尽管长读长数据在基因组组装方面具有优势,但在变异检测中,适当地处理长读长数据(如片段化)能够显著提升短读长流程的准确性。
在基因组组装和变异检测的比较中,研究者特别关注了错误模式和基因注释质量。通过分析长读长组装中的错误,发现这些错误主要集中在甲基化序列区域,如“GANTC”和“GATC”等。使用能够识别甲基化模式的最新版basecalling模型(如bacmethyl和v5.0.0)可以有效减少这些错误。此外,研究者还利用基因组注释工具(如Beav和Bakta)评估了不同组装方法对基因预测的影响,发现长读长组装在基因注释的完整性上略优于短读长组装,且BUSCO评分表明其在基因组完整性方面表现良好。
在群体水平的基因型推断中,研究者使用了不同的方法来比较短读长和长读长数据集。通过设置95%和99%的ANI(平均核苷酸同一性)阈值,研究者能够将菌株分组,并评估它们在不同测序技术下的基因型一致性。结果显示,使用Graphtyper处理400 bp片段化的长读长数据,能够更准确地将短读长和长读长数据集归为同一基因型。相比之下,专门为长读长设计的工具在处理同一基因型的菌株时表现略逊一筹。这表明,尽管长读长数据在某些方面具有优势,但在群体水平的基因型推断中,适当地处理数据仍然是提高准确性的关键。
研究还探讨了不同测序技术和分析流程在实际应用中的价值。例如,Oxford Nanopore技术在基因组组装方面具有显著优势,能够生成更完整的染色体结构和质粒信息。这对于理解病原菌的传播路径和宿主范围具有重要意义。此外,长读长数据在变异检测中的表现也得到了改善,尤其是在使用较高的过滤阈值时,能够与短读长数据达到相似的准确性。这些发现对于植物诊所和临床诊断机构具有重要价值,因为它们能够利用Oxford Nanopore技术生成高质量的基因组数据,从而更有效地进行病原菌的检测和追踪。
研究者还通过可视化方法,如最小生成树网络(minimum spanning networks),展示了不同菌株之间的基因型关系。这些网络不仅反映了菌株间的遗传差异,还揭示了可能的传播路径和来源。例如,某些菌株虽然来自不同的地点,但被归为同一基因型,这可能意味着它们通过共同的传播途径感染了不同的植物宿主。这种信息对于病原菌的流行病学研究至关重要,因为它可以帮助研究人员识别潜在的传播热点和病原菌的进化趋势。
此外,研究者还强调了在处理混合数据集时需要注意的问题。由于不同测序技术生成的数据在结构和质量上存在差异,使用统一的分析流程可能会导致基因型推断的偏差。因此,建议在分析混合数据集时,采用特定的参数设置或调整流程,以确保结果的准确性和一致性。例如,使用Graphtyper处理短读长和长读长数据时,需要忽略配对读长的过滤,以避免因读长结构差异导致的错误。
本研究的结果表明,Oxford Nanopore长读长测序技术在基因组组装和变异检测方面已经达到了较高的准确性和完整性,特别是在使用最新的basecalling模型和足够的测序深度时。这些技术的进步为植物诊所和临床实验室提供了新的工具,使它们能够更高效地进行病原菌的基因组测序和分析。与Illumina短读长测序相比,Oxford Nanopore技术在实验准备和测序速度上更具优势,适合在资源有限的实验室中应用。然而,为了确保变异检测的准确性,仍需对长读长数据进行适当的处理,如片段化或使用更严格的过滤阈值。
总体而言,本研究揭示了Oxford Nanopore长读长测序技术在病原菌基因组学研究中的潜力,特别是在群体水平分析和流行病学研究中。通过优化数据处理流程和分析工具,研究人员可以充分利用长读长技术的优势,同时确保变异检测的准确性。这些发现为未来的病原菌研究提供了重要的指导,同时也为植物诊所和临床实验室的病原菌检测和诊断工作提供了新的思路和方法。随着测序技术的不断发展,全基因组测序将在病原菌的防控和研究中发挥越来越重要的作用。
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号