编辑推荐:
长读长测序技术发展迅速,但缺乏能处理多种数据格式、提供综合指标的质量控制(QC)工具。研究人员开发 LongReadSum 工具,可对多种长读长测序数据生成 QC 报告。该工具功能全面,有助于提高测序数据分析准确性,推动相关研究发展。
近年来,长读长测序技术取得了显著进展,牛津纳米孔技术(Oxford Nanopore Technologies,ONT)和太平洋生物科学公司(Pacific Biosciences,PacBio)的技术让人们能够对长达数十到数千碱基对(kb)的序列进行高精度测序。2023 年,Illumina 也推出了自己的高精度 Complete Long Read 技术。这些技术的进步使得长读长测序在基因组学研究中得到了广泛应用,例如在基因组组装、变异检测、甲基化分析等方面发挥着重要作用。
然而,长读长测序数据的质量控制面临诸多挑战。一方面,虽然有一些针对短读长测序数据的成熟 QC 工具,如 FastQC,但这些工具并不完全适用于长读长数据。FastQC 无法提供读长和碱基映射的 QC 指标,也没有针对长读长数据的重要指标,如平均、中位数、最大和 N50读长值,并且在处理大数据集时性能不佳。另一方面,现有的长读长数据 QC 工具存在局限性,如 NanoPlot、PycoQC、NanoQ、NanoQC 和 MinIONQC 等,它们通常只支持特定平台的测序数据格式,或者只关注数据的特定方面,无法全面处理多种格式的数据并提供综合指标。此外,目前还没有工具能够对 ONT 的 FAST5 和 POD5 文件格式中的信号强度和碱基调用信息进行可视化,这对于表观基因组学和表观转录组学研究至关重要。
为了解决这些问题,研究人员开展了关于长读长测序数据质量控制和信号汇总工具的研究。虽然文中未明确研究机构,但研究人员成功开发了 LongReadSum 这一高性能工具,它能够为主要类型的长读长测序数据生成全面的 QC 报告。这一成果对于提高长读长测序数据的分析质量和效率具有重要意义,相关研究成果发表在《Computational and Structural Biotechnology Journal》上。
研究人员在开发 LongReadSum 工具时,运用了多种关键技术方法。该工具基于命令行运行,作为非交互式 Python 模块,利用灵活的多线程 C++ 框架来快速生成测序数据各方面的综合摘要。C++ 模块负责计算所有 QC 指标,结果通过 Python 编译成动态 HTML 报告和摘要文本文件,C++ 模块借助 SWIG 实现与 Python 的接口。此外,研究人员还使用了 HTSLib C++ 库来提取和处理相关数据。
1. LongReadSum 的基本使用
以 ONT 对 HG002 人类基因组进行全基因组测序(WGS)的 BAM 文件为例,LongReadSum 生成的 HTML 报告包含了映射和未映射测序读数及碱基的基本统计信息,如 N50和 GC 含量。报告中的交互式直方图能帮助分析人员快速发现样本制备或测序过程中可能存在的问题,例如异常的读长分布和碱基质量偏差。通过对这些指标的分析,可以判断测序质量是否稳定,是否会影响后续的分析结果。
2. 不同数据类型的应用案例
LongReadSum 在多种数据类型的分析中都展现出了强大的功能。在 cDNA 和直接 RNA 测序中,通过比较不同细胞系和测序平台的读长分布,可以清晰地看到分子大小的差异。对于 ONT 的简化代表性甲基化测序(RRMS),LongReadSum 不仅能分析通过过滤的接受读数,还能对被拒绝的读数进行 QC 分析,比较两者的差异,如片段大小、碱基对齐错误率等。在全基因组测序中,利用 LongReadSum 可以比较不同测序平台(如 ONT R9.4.1 和 R10.4.1)的测序准确性,通过分析读平均碱基质量分布和比对错误率等指标,发现 R10.4.1 在提高测序准确性方面的优势。此外,LongReadSum 还能利用 FAST5 或 POD5 文件中的信号信息,验证感兴趣区域的存在,例如识别短串联重复序列的信号模式。在甲基化分析方面,LongReadSum 能够提供全面的甲基化调用汇总信息,与其他工具(如 modkit)相比,虽然在某些性能指标上有所差异,但能生成独特的指标,为研究人员提供更全面的信息。对于 RNA - Seq BAM 文件,结合基因注释文件,LongReadSum 可以计算转录本完整性数(TIN),评估 RNA 的完整性,与 RSeQC 相比,虽然在性能上有待提高,但也能提供可靠的结果。
3. LongReadSum 的性能表现
研究人员将 LongReadSum 与其他常用的 QC 工具进行了性能比较。在处理 FASTQ 文件时,LongReadSum 在 CPU 和时钟时间上表现出色,仅为其他工具的一半,且内存使用相对较低。在 BAM 文件的 QC 分析中,LongReadSum 与 NanoPlot 的时钟时间相当,但 CPU 时间减半,内存使用更少,显示出更高的计算资源利用效率。在碱基修饰分析方面,LongReadSum 虽然在时钟时间上比 Modkit 长,但内存使用显著减少,CPU 时间也更短。在 RNA - Seq TIN 分析中,LongReadSum 目前在性能上不如 RSeQC,但研究人员正在努力改进。
LongReadSum 是一款功能强大且高效的长读长测序数据质量控制和信号汇总工具。它支持多种主要的测序数据格式,能够快速识别测序数据中的质量问题和偏差,为下游分析提供可靠的基础。通过对不同数据类型的广泛应用和性能比较,LongReadSum 展现出了其在长读长测序数据分析中的优势。尽管在某些方面还需要进一步优化,如 RNA - Seq TIN 分析的性能提升,但随着技术的不断发展,研究人员计划持续改进和扩展该工具的功能,以支持不断演进的测序标准和文件格式,为生命科学和健康医学领域的研究人员提供更全面、更高效的数据分析支持,推动相关领域的研究发展。