基于归一化处理的基因组序列通用压缩器性能优化研究

《General and Comparative Endocrinology》:A study of the cutting-edge general-purpose compressors’ performance on the normalized genome sequence

【字体: 时间:2025年10月19日 来源:General and Comparative Endocrinology 1.7

编辑推荐:

  本文推荐一篇创新性研究,该研究提出名为NGC(Normalized Genome Compressor)的参考基因组序列压缩工具。它通过预处理(保留主要碱基域A/C/G/T)和归一化(如2-bit编码)显著提升了8种通用压缩器(如gzip、zstd)在压缩基因组序列时的性能,加权平均压缩比(WACR)提升显著(例如P-gzip达4.13 vs S-gzip的3.63),且速度极大提升(P-gzip快约91倍),为生物信息学大数据存储与传输提供了高效解决方案。

  
Highlight
相关研究
截至2025年,该领域已存在大量针对原始、FASTA/Q及多FASTA结构序列的专用压缩器。尽管研发持续进行,许多数据库仍高度依赖通用压缩技术gzip和zstd。我们从现有通用跨平台压缩器中遴选了八种前沿压缩器,包括7-zip、paq8px等。
方法论
提出的NGC算法包含两个阶段共三个步骤:(i)预处理、(ii)归一化、(iii)编码。第一阶段涵盖预处理和归一化。图1展示了该方法编码与解码关键流程的框图。
测试数据与执行平台
基因组测序数据以多种格式存在。本研究采用易于学者读取分析的原始数据。我们在两个基准原始基因组序列数据集上评估NGC效能:首个语料库包含十七个序列,第二个语料库包含十一个小尺寸序列。这些序列大小从18.5 KiB到185,305 KiB不等。
结果与讨论
测试了7-zip、paq8px、bsc、gzip、zstd、bzip2、zpaq和cmix这八种压缩器在基因组序列归一化后的效能。所用评估参数如下:
(i) 加权平均压缩比(WACR)= 未压缩语料库大小 ÷ 压缩后语料库大小
(ii) 总压缩时间(TCT)= 每个语料库所需的总压缩时间(秒)
(iii) 总解压缩时间(TDT)= 每个语料库所需的总解压缩时间(秒)
(iv) 峰值压缩内存(PCM)= 峰值内存占用(MiB)
结论
本研究提出了一种名为NGC的归一化基因组压缩器。此项工作旨在提升前沿通用压缩器在基因组序列压缩上的效率。所提出的方法是一种参考自由方法,包含两个阶段。首先将序列转换为其基本域(即A、C、G、T)后进行归一化。随后,将组合序列转换为2-bit编码(A <- 00, C <- 01, G <- 10, T <- 11)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号