突破基因组数据存储困境:专业压缩软件为短读序列数据 “瘦身”

【字体: 时间:2025年05月03日 来源:Scientific Reports 3.8

编辑推荐:

  在全基因组测序研究中,数据存储与传输成本高昂。研究人员对用于双端 fastq.gz 和 BAM 文件的压缩软件进行基准研究。结果显示,Genozip 和 ORA 压缩比高、用时短。这为降低数据存储成本提供了有效方案。

  在生命科学领域,全基因组测序(Whole genome sequencing,WGS)技术飞速发展,为探究复杂疾病的遗传基础带来了新的曙光。通过短读测序(short-read sequencing)获取的海量数据,蕴含着无数解开生命奥秘的线索。然而,这些数据的存储和传输却成了令人头疼的难题。想象一下,在一个数据如同潮水般涌来的实验室里,研究人员辛苦测序得到的数据,仅仅存储成本就高得惊人。以平均 35× 的测序覆盖度为例,每个样本的 fastq.gz 原始序列文件大小约为 65GB,加上预处理和映射比对后存储为 BAM 或 CRAM 文件,存储负担进一步加重。如果将数据存储在商业云平台,每年每 GB 的成本约为 0.17 美元,存储一个样本的 fastq.gz 和 BAM 文件十年的费用,甚至比最初生成数据的成本还要高。这就好比在前进的道路上,突然出现了一座数据成本的 “大山”,挡住了研究的步伐。为了翻越这座 “大山”,来自瑞士 Cardio-CARE、德国吕贝克大学等多个机构的研究人员展开了一场 “数据瘦身” 的探索之旅。他们的研究成果发表在了《Scientific Reports》上,为解决基因组数据存储难题带来了新的希望。
研究人员开展的是一项关于人类短读序列数据压缩软件的基准研究。他们选择了四个专门用于双端 fastq.gz 文件的压缩工具:DRAGEN ORA 4.3.4(ORA)、Genozip 15.0.62、repaq 0.3.0 和 SPRING 1.1.1,同时还对比了 Genozip 和 SAMtools 1.20 对 BAM 文件的压缩效果。研究中使用的样本来自基因组瓶联盟(Genome-in-a-bottle consortium)的三个受试者,这些样本在 Illumina NovaSeq 6000 平台上进行了 82 次测序。

研究中用到的主要关键技术方法如下:首先是样本处理技术,从 Coriell Institute 获取三个具有阿什肯纳兹犹太血统的基因组瓶联盟受试者样本,经过 DNA 浓度测量、文库构建等一系列标准步骤后,在 Illumina NovaSeq 6000 平台进行测序;其次是数据处理技术,利用 Illumina 的 bcl2fastq 版本 2.20 程序将原始测序文件转换为 FASTQ 格式并进行解复用,之后使用不同的压缩软件对 fastq.gz 和 BAM 文件进行压缩,并用 R 版本 4.4.0 进行统计分析。

下面来看具体的研究结果:

  • 压缩软件的功能概述:Genozip 功能最为全面,能压缩 fastq.gz、BAM、CRAM 和 gVCF 等多种文件格式;SAMtools 仅能压缩 BAM 文件;ORA、repaq 和 SPRING 则局限于压缩 fastq.gz 文件1
  • fastq.gz 文件的压缩与解压缩:在对 fastq.gz 文件的压缩中,Genozip 和 ORA 表现出色,压缩比分别达到 1:5.99 和 1:5.64 ,而 repaq 和 SPRING 的压缩比仅为 1:1.99 和 1:3.79。在运行时间上,ORA 耗时最短,比 SPRING 和 repaq 快 15 - 16 倍,Genozip 也比 repaq 和 SPRING 快 10 倍以上。解压缩时,ORA 速度约是 Genozip 的两倍,且二者均远超 repaq 和 SPRING。在内存使用方面,SPRING 在压缩和解压缩时内存消耗最高,repaq 最低,Genozip 比 ORA 消耗的内存更少234
  • BAM 文件的压缩:Genozip 对 BAM 文件的压缩比最高,为 1:4.71,但运行时间较长,内存消耗约是 SAMtools 的 13 倍。SAMtools 将 BAM 文件转换为 CRAM 文件,CRAM3.1 比 CRAM3.0 的压缩比略高,且生成的 CRAM3.1 文件比 Genozip 压缩的 BAM 文件大 14% ,但压缩时内存使用约为其 1/13567

研究结论和讨论部分指出,Genozip 和 ORA 在压缩 fastq.gz 文件时具有最高的压缩比和最短的压缩、解压缩时间。虽然 Genozip 需要年度许可证,但其源代码免费,具有可持续性。商业工具 Genozip 和 ORA 比免费工具 SPRING 和 repaq 的压缩比更高。对于 BAM 文件,SAMtools 生成的 CRAM 文件因能被许多软件直接读取而更具优势。然而,研究也存在一定局限性,如仅关注了双端短读 Illumina 序列的压缩,未考虑长读序列的压缩,且部分软件未纳入比较。尽管如此,这项研究为基因组数据存储提供了重要的参考,帮助研究人员在选择压缩软件时能更有针对性,有效降低数据存储和传输成本,推动全基因组测序研究在更经济、高效的道路上前进,对生命科学和健康医学领域的发展具有重要意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号