编辑推荐:
研究人员为解决泛基因组研究现有方法的局限,开展 MEMO 索引研究,结果显示其优势显著,意义重大。
在生命科学的探索之旅中,基因组研究一直是前沿热点。随着科技的进步,泛基因组(Pangenomes)逐渐进入人们的视野。泛基因组是多个基因组的集合,它能让我们以全新的视角研究和可视化基因变异,以及基因组序列的保守程度。想象一下,它就像是一本记录着众多生物基因奥秘的超级宝典,为我们打开了深入了解生命遗传密码的新大门。
然而,目前研究泛基因组的方法却存在不少问题。基于图的泛基因组方法,在构建参考图时计算量极大,就像搭建一座复杂的城堡,不仅困难重重,还得先把一些棘手的重复序列 “藏起来”(比如 HPRC 中的 “dna-brnn” 区域),才能继续进行。而基于 k -mer 和德布鲁因图(de Bruijn graphs)的索引方法,虽然曾经在基因组研究中发挥了重要作用,如助力植物全基因组关联研究、识别单拷贝基因等,但也有明显的局限性。它们在构建索引时,k 值必须固定下来,这就好比给研究戴上了 “紧箍咒”,后续查询只能使用这个固定的 k 值,灵活性大打折扣。而且,这些索引还可能非常庞大,比如为 HPRC 中的每个单倍型构建单独的 31 -mer KMC3 数据库,索引大小竟高达 1.26 TB,这无疑是个巨大的 “数据负担”。
为了突破这些困境,来自约翰霍普金斯大学(Johns Hopkins University)的研究人员斯蒂芬?黄(Stephen Hwang)、纳撒尼尔?K?布朗(Nathaniel K. Brown)等人开展了一项极具创新性的研究。他们致力于开发一种全新的泛基因组索引方法,相关成果发表在《Algorithms for Molecular Biology》上。
研究人员提出的方法叫做 Maximal Exact Match Ordered(MEMO),它是一种基于最大精确匹配(MEMs)的压缩索引方法。在这个方法中,有几个关键的技术要点。首先,MEMO 通过计算参考基因组(“pivot” genome)与其他基因组之间的匹配统计(MS)向量,进而得到 MEMs。MS 是指两个字符串之间的半最大精确匹配,不能在不引入错配或到达字符串末尾的情况下向一个方向扩展,而 MEMs 则是从 MS 中推导出来的,它是指在模式和文本之间的精确子串匹配,且不能向左或向右扩展。其次,为了进一步提高查询效率和减少索引大小,研究人员引入了 order - MEMs 的概念。order - MEMs 是通过对 MS 矩阵按列排序得到的,这种排序使得较低阶的 order - MEMs 包含在较高阶的 order - MEMs 中,从而加快了保守性查询的速度,还能实现有损压缩。另外,MEMO 使用了柱状压缩(Columnar compression)技术,将索引存储在 Apache Parquet 文件中,利用 ZSTD 编解码器对列进行压缩,这种方式比传统的行式压缩(如 bgzip 和 tabix)效果更好,大大减小了索引文件的大小。
在研究结果方面,研究人员进行了多方面的比较和测试。
- 索引大小:MEMO 索引在大小上展现出了巨大优势。以 HPRC 泛基因组为例,使用 T2T - CHM13 作为参考基因组构建的 MEMO - C 索引仅为 2.04 GB,相比之下,PanKmer 索引为 23.29 GB,KMC3 - C 索引为 18.05 GB,MEMO - C 索引分别比它们小 11.4 倍和 8.8 倍。如果采用量化采样(Quantile - sampled)策略构建 MEMO - DC 索引,进一步减少索引中存储的信息,HPRC 索引可缩小至 0.87 GB,若再结合区间长度过滤(Interval - length filtered)策略,限制查询的 k -mer 长度,索引甚至能减小到 0.66 GB。
- 查询速度:MEMO 的查询速度也非常快。在对人类白细胞抗原(HLA)基因座进行 31 - mer 保守性查询时,MEMO - C 仅需 13.89 秒,比 KMC3 - C 快 2.6 倍,比 PanKmer 快 365.3 倍。而且,MEMO 的查询运行时间与查询区域内重叠 MEM 区间的数量成正比,对于相同的查询区域,不同 k 值的查询运行时间大致相同,而 KMC3 索引在改变 k 值时需要重新索引,PanKmer 只能对 31 - mer 进行索引,灵活性较差。
- 可视化和探索性:利用 MEMO - C 的输出,研究人员可以可视化 HLA 基因座的序列保守性。结果发现,其保守性图谱能够捕捉到已知的高单核苷酸多态性密度区域。在对 HLA delta 块进行放大观察时,发现 MEMO - DC 的保守性十分位数计数近似值与 MEMO - C 的全分辨率图谱相似,但索引大小却小了 2.3 倍。这表明 MEMO 不仅能快速查询,还能为研究人员提供直观的序列保守性信息,有助于深入理解基因组的特征。
研究结论和讨论部分指出,MEMO 是一种高效且实用的泛基因组索引方法。它能够有效地回答任意长度的 k -mer 成员资格和保守性查询,索引大小极小,查询速度快,还支持灵活的序列保守性可视化探索,特别是在复杂区域,可变的 k -mer 长度有助于更好地理解序列保守性的不同模式。同时,研究还发现索引连续 MEMs 和 order - MEMs 之间的重叠区间,比直接索引 MEMs 能获得更好的压缩比;使用 Parquet 和 ZSTD 的柱状压缩比常用的 bgzip 和 tabix 压缩效果好约 4 倍,这一发现可能在生物信息学领域具有更广泛的意义,为其他相关研究提供了新的思路和方法。
不过,MEMO 也存在一定的局限性。在构建索引时,它必须选择一个参考基因组作为 “pivot”,虽然通常泛基因组中会有质量较高的基因组可作为自然的 “pivot”,但在某些情况下,可能不存在这样的自然 “pivot”,比如 VGP 项目。未来,设计多 “pivot” 的 MEMO 扩展可能是一个重要的研究方向,有望进一步利用泛基因组的内在冗余性,提升研究效果。此外,目前 MEMO 使用 MONI 来查找匹配统计,但 MONI 并非专门针对该问题设计,未来可以考虑使用其他更合适的工具,如 Ahmed 等人提出的 profile document array。
总的来说,MEMO 的出现为泛基因组研究带来了新的曙光,它为研究人员提供了一种强大的工具,有助于更深入地探索泛基因组的奥秘,推动生命科学领域在基因组研究方面取得新的突破。