X-Mapper:基于间隙 x- mer 的快速精准序列比对技术,开启生物信息学新篇章

【字体: 时间:2025年02月10日 来源:Genome Biology 10.1

编辑推荐:

  在生物信息分析中,序列比对至关重要。为解决传统 k- mer 算法在序列比对时难以兼顾速度与准确性的问题,研究人员开展了 X-Mapper 相关研究。结果显示,X-Mapper 能降低次优比对率和比对不一致性,在速度上也有竞争力,有助于推动相关生物研究。

  在生物科学的宏大版图中,微生物研究一直是个热门领域。随着高通量测序技术的蓬勃发展,海量的微生物基因组数据如潮水般涌来。这看似丰富的 “数据宝藏”,实则暗藏挑战。在处理这些数据时,序列比对成了一道绕不过的难关。传统的序列比对方法,大多依赖固定长度的 k- mer(将序列分割成固定长度的子序列片段),就像用一把固定尺码的尺子去量各种不同的物体。遇到突变密集的区域,长 k- mer 常常难以匹配;而在处理重复区域时,短 k- mer 又会因匹配过多而导致比对不准确。这种 “一刀切” 的方式,使得比对的准确性和效率大打折扣,严重影响了后续的数据分析和研究成果的可靠性。
为了突破这一困境,来自谷歌(Google)、麻省理工学院(Massachusetts Institute of Technology)和南洋理工大学(Nanyang Technological University)的研究人员 Jeffry M. Gaston、Eric J. Alm 和 An-Ni Zhang 等开展了一项重要研究,相关成果发表在《Genome Biology》上。他们致力于开发一种更高效、准确的序列比对工具,以满足微生物研究以及其他基于测序的生物学研究的需求。

研究人员提出了 X-Mapper,这是一种基于间隙 x- mer(动态长度且包含间隙的种子序列)的短读长比对工具。在构建 X-Mapper 算法时,研究人员首先构建 x- mer 金字塔,从长度为 1 个碱基对的 x- mer 开始,逐步向上构建,直至达到序列的全长。在这个过程中,每个碱基对都会被不同大小的 x- mer 覆盖,且 x- mer 的数量会随着层级的增加呈指数级减少。接着,将 x- mer 扩展为间隙 x- mer,通过添加大约一半 x- mer 长度的间隙和相同长度的 k- mer 来实现。之后,为每个间隙 x- mer 分配哈希码,并将其保存到哈希表中,以便后续快速查找。在比对查询序列时,X-Mapper 会根据 x- mer 在参考基因组中的匹配情况,动态调整 x- mer 的层级和长度,寻找最优比对位置。

在研究 X-Mapper 的性能时,研究人员进行了一系列实验。首先是比对准确性实验,他们选取了多种不同复杂度的测序样本,包括人类肠道微生物组宏基因组、人类转录组数据集以及脆弱拟杆菌(Bacteroides fragilis)的全基因组测序(WGS)数据等,并将 X-Mapper 与其他基于 k- mer 和 x- mer 的比对工具如 Strobealign、Minimap2、Bowtie2、BWA 和 LAST 进行对比。在相同的罚分设置下,X-Mapper 展现出了更高的比对准确性,其次优比对率显著低于其他工具。例如,在比对人类肠道微生物组宏基因组时,X-Mapper 的次优比对率仅为 0.05%,比 Strobealign 低 6 - 34 倍;在比对人类转录组数据集时,X-Mapper 的次优比对率为 0.48%,比 Strobealign 低 11 - 24 倍。

进一步探究 X-Mapper 准确性更高的原因时,研究人员构建了使用固定 k- mer 大小或无间隙 x- mer 的 X-Mapper 版本。结果发现,使用动态 k- mer 大小对 X-Mapper 的高准确性贡献显著。无间隙 x- mer 和次优 k- mer 大小是其他工具产生错误比对位点的主要原因,而 X-Mapper 在处理复杂比对时,能更有效地识别软剪辑(soft clip)和插入缺失(indel),从而实现更准确的比对。

除了准确性,比对一致性也是衡量比对工具性能的重要指标。研究人员通过将脆弱拟杆菌的 WGS 数据集分别比对到其自身基因组和包含多种微生物的复杂参考基因组上,来测试 X-Mapper 的比对一致性。结果显示,X-Mapper 的比对不一致性比其他工具低 3 - 579 倍。在处理复杂参考基因组时,X-Mapper 能更准确地将 reads 比对到目标基因组上,减少错误的菌株和物种识别,从而实现更准确的分类学分配和目标菌株丰度检索。

在速度方面,研究人员在相同的计算机硬件条件下对各比对工具进行测试。结果表明,X-Mapper 在速度上具有一定竞争力。虽然在某些情况下,它比 Strobealign 和 Minimap2 稍慢,但比 Bowtie2、LAST 和 BWA 更快。而且,X-Mapper 在实现高准确性的同时,保持了较低的次优比对率和比对不一致性,在速度和准确性之间达到了更高效的平衡。

综合研究结果,X-Mapper 在处理微生物基因组和鸟枪法测序数据时,展现出了高准确性、高灵活性和较快速度的优势。它能有效减少次优比对,提高比对一致性,在速度上也能满足实际研究需求。这一成果为生物信息学领域带来了新的突破,有望改善多种基于 k- mer 和 x- mer 的生物信息学应用,如相似性搜索(BLAST、Diamond)、宏基因组分类学分配(Kraken)、多序列比对(MUSCLE、MAFFT)和基因组组装(SPAdes、IDBA)等。

不过,该研究也存在一些局限性。例如,研究人员尚未对 X-Mapper 在长读长测序数据上的性能进行充分测试,且未在非微生物、非人类基因组上进行测试。此外,在使用人类转录组数据集进行评估时,可能会给主要用于基因组数据比对的工具带来挑战。但总体而言,X-Mapper 的出现为生物信息学研究提供了更强大的工具,为未来基于测序的生物学研究开辟了新的道路,具有重要的理论和实践意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号