MetaGraph实现PB级生物序列库高效精准搜索,开启基因组数据挖掘新纪元

【字体: 时间:2025年10月10日 来源:Nature 48.5

编辑推荐:

  面对公共生物序列库数据量爆炸式增长(已达67 Pbp)但难以高效全文搜索的挑战,研究人员开发了MetaGraph框架。该框架利用注释型de Bruijn图技术,成功对1880万份DNA/RNA序列集和2100亿氨基酸残基进行索引,使跨病毒、细菌、真菌、动植物和人类的全序列搜索成为可能。研究表明搜索成本可低至0.74美元/Mbp,且高度压缩的索引可存储在消费级硬盘上(总成本约2500美元),为生物医学研究提供了经济高效的超大规模序列搜索解决方案。

  
随着高通量DNA测序技术的飞速发展,全球测序能力呈指数级增长,公共数据库中的生物序列数据量已达到惊人规模。截至2025年1月,欧洲核苷酸存档(ENA)已包含超过10.8×1016个碱基(108 Pbp)的原始测序数据,其中67 Pbp为公开可用数据。这些海量数据构成了生物医学研究的宝贵资源,但如何高效、准确地进行全文搜索(即检索所有包含与给定序列查询相似序列的数据集)仍然是一个巨大挑战。
传统访问模式依赖于描述性元数据来识别相关记录,然后下载数据副本进行分析。这种方法需要大量资源,使得PB级的原始测序数据长期以来无法进行全文搜索,极大地限制了其研究潜力。虽然近年来出现了一些解决方案,如用于大规模人群遗传变异研究的变异图框架(如VG),以及用于分类学分类和读段注释的方法(如BLAST和Centrifuge),但它们要么在输入规模和序列变异性方面可扩展性有限,要么缺乏高通量搜索PB级档案所需的速度。
实验发现方法的最新进展可分为三类:用于近似集合相似性和包含查询的草图技术、用于近似查询单个短序列 against 序列集的近似成员查询数据结构(如Bloom过滤器),以及用于注释de Bruijn图(也称为彩色de Bruijn图)的确切表示方法。尽管有些方法具有高效的可扩展性,但这是以缺乏敏感比对支持和相对较高的假阳性率为代价的。
为了弥补这一明显差距,并证明对生物序列库进行经济、准确的全文索引的实际可行性,研究人员提出了MetaGraph——一个用于在PB级规模上索引和分析生物序列库的多功能框架。
研究人员基于该领域的最新进展,开发了MetaGraph这一方法论框架,能够使用注释de Bruijn图可扩展地索引大型DNA、RNA或蛋白质序列集。通过整合来自七个公共来源的数据,使1880万个独特DNA和RNA序列集以及所有生命分支(包括病毒、细菌、真菌、植物、动物和人类)的2100亿氨基酸残基可全文搜索。
研究表明,在大型序列库(67 Pbp原始序列)中进行经济高效的全文搜索是可行的,小查询(最多1 Mbp)的按需成本约为100美元,大查询低至每查询Mbp 0.74美元。高度压缩的所有公共生物序列表示可以安装在几个消费级硬盘上(总成本约2500美元),使得使用成本经济且易于传输进行进一步分析。
研究人员探索了几个实际用例来挖掘现有档案中有趣的关联,证明了索引用于整合分析的用途,并说明这种能力有望促进生物医学研究的进步。
关键技术方法包括:1)使用de Bruijn图表示k-mer集,支持精确成员查询;2)采用RowDiff和Multi-BRWT等压缩技术高效表示注释矩阵;3)开发批量查询算法和序列到图比对方法(如SCA和TCG-Aligner)提高搜索灵敏度;4)利用AWS云基础设施实现分布式索引和查询;5)对原始测序数据应用清洗策略去除测序错误。数据来源包括NCBI SRA、ENA、GTEx、TCGA、MetaSUB、RefSeq、UniParc等多个大型公共数据库的样本。
MetaGraph框架设计
MetaGraph索引由一个注释序列图组成,具有两个主要组件:第一个是表示de Bruijn图的k-mer字典,存储在该字典中的k-mer作为MetaGraph索引所有操作中的基本标记;第二个组件将任何元数据编码为k-mer与分类特征(称为注释标签)之间的关系,这种关系表示为稀疏矩阵(注释矩阵)。
MetaGraph支持可互换地使用不同的图和注释表示,适应不同的存储需求和分析任务,并允许轻松采用新的算法发展。在开发MetaGraph时做出了某些设计选择:使用简洁数据结构和高效表示方案以实现极高的可扩展性;高效算法使用简洁数据结构(如偏好批量操作);支持多种图和注释表示的模块化开源许可架构,只需很少代码开销即可添加新算法。
**
可扩展的多样本索引构建
索引工作流程包括三个步骤:数据预处理、图构建和注释构建。数据预处理涉及从原始输入样本构建单独的de Bruijn图(样本图),可选择地对每个样本图应用后续清洗步骤以减少潜在测序错误的影响;在图构建中,将第一阶段获得的所有样本图合并为一个联合de Bruijn图;在注释构建中,构建注释矩阵的列以指示不同k-mer在各自样本图中的成员资格;最后,将图和注释压缩成最适合其目标应用的表示形式。
MetaGraph的一流可扩展性
研究人员在从微生物基因组测序读段集合BIGSI随机抽取的规模不断增加(最多25,000个读段集)的子集上评估了MetaGraph的可扩展性。MetaGraph索引所占空间比其他评估方法小3-150倍,尽管其中一些方法使用有损压缩方法,而Mantis、Bifrost、Themisto、Fulgor和MetaGraph提供了索引k-mer集的无损表示。
MetaGraph exceptional的空间效率并不影响查询时间。通过查询人类肠道宏基因组样本的扩增子读段,发现MetaGraph提供了极具竞争力的查询时间,尽管使用的空间要少得多。为实现这一目标,研究人员设计了几种高效算法来识别de Bruijn图中的匹配路径及其相应注释,以及一种批处理查询算法,利用单个查询之间共享的k-mer的存在,形成快速中间查询子图,对于重复查询(如测序读段集)将吞吐量提高了32倍。
除了精确匹配外,研究人员还开发了更敏感的图比对算法,识别图中最接近的匹配路径。虽然精确k-mer匹配可以视为最高半全局比对的简化版本,但随着数据变得更加复杂,它的准确性会降低,需要序列到图比对。在测序深度不足的情况下,发现更敏感的比对显著提高了搜索准确性。
构建PB级索引
为了证明跨整个序列档案进行准确、经济高效搜索的实际可行性,研究人员使用MetaGraph索引了NCBI SRA的相当大部分,包括DNA和RNA,以及受限访问的人类队列和UniParc氨基酸序列。索引的数据集范围从大型RNA-seq队列(TCGA、GTEx)和SRA的庞大基因组测序记录档案(包含2,347,037个微生物、真菌、植物和后生动物样本)到大型、高度多样化的全宏基因组测序(WMGS)队列(MetaSUB;所有公共SRA人类肠道宏基因组样本)以及参考和组装序列集合(RefSeq、UHGG、Tara Oceans)。
MetaGraph对完整UniParc数据集的索引证明了直接使用蛋白质序列作为输入数据的简便性。对于选定的数据集,使用计数de Bruijn图的概念生成保留k-mer计数或坐标的索引。所有这些数据集及其构建的MetaGraph索引的关键统计数据如表1所示,并在图2c中可视化。
数据冗余驱动压缩比
MetaGraph的压缩性能在很大程度上取决于索引序列集的性质。当输入数据通常具有不同格式(如FASTA、FASTQ、SRA)时,研究人员以字符每字节(即MetaGraph索引每个字节的平均输入字符数)测量最终压缩比,使其在不同数据集之间具有可比性。
将压缩比分解为两个因素:数据冗余和索引效率,如表1最后两列所示。直观地说,冗余显示了样本内数据重复的量,而索引效率反映了不同样本间数据重复以及索引表示方案的效率。
GTEx和TCGA队列虽然包含高度压缩的RNA-seq数据,但仅显示出有限的多样性。MetaGraph索引以约10 GB的空间表示每个索引,从而实现了所有索引数据集中最高的压缩比(高达7,416 bp/字节)。即使添加k-mer计数,最终压缩比仍然很高。
中等复杂度范围主要包括全基因组测序读段集,显示较少的冗余。值得注意的是,SRA-Microbe数据集的表示仅占用57 GB,比1.6 TB的BIGSI索引小28倍,比最小的Fulgor表示小2.2倍。
相反,研究人员选择了MetaSUB队列(包含4,220个环境宏基因组样本,包含7.2 Tbp)和SRA-MetaGut队列(包含此时SRA上所有可用的人类肠道宏基因组样本,包含约156 Tbp)。这些输入涵盖了非常多样的生物种群,并包含许多稀有序列,产生较低的压缩比(140-155 bp/字节),但仍然产生紧凑的索引(MetaSUB为46.7 GB;SRA-MetaGut为1,111 GB)。最后,组装基因组和蛋白质序列集合表现出最大的多样性且只有最小的数据冗余,样本间相似性反映进化距离;尽管如此,MetaGraph仍能紧凑地索引它们。
**
高度准确、近乎完整的索引
当使用给定序列执行实验发现查询时,由于每个样本清洗工作流程丢弃的k-mer,一些真实标签可能无法检索到。在这方面,研究人员评估了SRA衍生的MetaGraph索引在实验发现上的准确性。通过显示单个样本图准确表示其相应输入,验证了清洗和比对方法,其中至少80%的查询读段能够重新比对回其各自的样本图。
将相同的读段与其相应的注释图索引进行比对时,类似地观察到75-95%的查询读段能够以至少80%的序列同一性进行比对。使用具有不同突变率的查询读段的改变版本,评估了映射算法对序列变异的鲁棒性。通常观察到,精确k-mer匹配和序列到图比对之间的实验发现准确性差异随着序列变异的增加而增加。
对于功能测序数据(如RNA-seq)尤其重要的是MetaGraph编码每个样本计数信息的能力。作为一个例子,提供了GTEx队列样本中转录本SFTPB-207(ENST00000519937.6)的表达。即使表示压缩了包含100个随机研究的原始数据,使用STAR将所有序列与参考序列进行比对,所有计数信息均按样本编码,组织特异性得以保留。对于这个例子,发现相同的表面活性剂转录本主要在肺中表达,部分在睾丸中表达,但不在其他地方表达,如预期的那样。
探索肠道抗性组和噬菌体组
为了展示MetaGraph在大型数据集上实时组学分析中的用途,研究人员将完整的CARD抗菌素耐药性(AMR)数据库和RefSeq发布218的所有噬菌体与SRA-MetaGut数据库中的241,384个人类肠道微生物组样本进行了查询。使用经典方法,这种分析将需要访问数百TB的原始测序数据。使用压缩序列表示,可以在单个计算节点上在大约一小时内完成。
研究人员恢复了大肠杆菌λ噬菌体与RNA抗生素外排泵之间的强关联。此外,还研究了不同大陆随时间推移的抗生素耐药性趋势。发现随着时间的推移,耐药性显著增长趋势,特别是在非洲的二氨基嘧啶、大洋洲的防腐剂和氟喹诺酮类,以及南美洲的头霉素和最后 resort 抗生素之一替加环素(一种甘氨酰环素)。
展示了MetaGraph的交互能力,提供了公共示例脚本,将完整的CARD数据库与MetaSUB队列中4,220个WMGS样本的索引进行查询。重现了基于每个样本平均AMR标记数量的城市排名,与使用正交策略对原始数据进行的分析一致。还展示了其他探索性分析,将样本元数据(如采样位置的表面材料)与查询结果联系起来。
**
GTEx和TCGA中的反向剪接调查
MetaGraph索引可以轻松表达在经典线性坐标系中难以表示的转录组特征。一个例子是反向剪接连接(BSJ),它将外显子的供体位点连接到 preceding 外显子的接受体位点,形成环状RNA,已发现这在人类中也常见发生。
使用GENCODE注释(v.38)和hg38参考基因组,在GTEx和TCGA索引中系统地查询所有4,052,768个可能的基因内BSJ,这些连接与参考基因组或转录组不匹配,并且在至少一个样本中所有k-mer的覆盖度至少为10。虽然使用线性RNA-seq比对器难以映射此类特征,但使用图索引是一个简单的任务。经过进一步过滤,发现几个BSJ在GTEx组织和TGCA癌症类型的大部分中可 recurrently 检测到,其中睾丸、胰腺、血液、肌肉、皮肤和脑组织在GTEx中显示最大的相对比例,而食道癌(ESCA)、卵巢浆液性囊腺癌(OV)、胶质母细胞瘤(GBM)和胃腺癌(STAD)在TCGA中显示最大的相对比例。
将候选集与从最近长读长数据衍生的BSJ集重叠时,也将其与GTEx和TCGA索引进行比对,发现660和880个BSJ存在大重叠,这些BSJ具有高组织特异性。限定在COSMIC癌症基因普查并比较TCGA和GTEx队列表明,癌症和正常组织之间BSJ的使用存在差异。
构建社区资源
从公共访问数据构建的所有索引可在AWS的下获得,并可下载用于大规模本地搜索和分析,或直接从云中访问。访问说明在GitHub上提供。为了使索引可在线查询,开发了一个搜索引擎MetaGraph Online,它使用MetaGraph框架托管索引并实时对其执行查询,几乎立即显示查询结果。然而,该服务的吞吐量有限;因此,对于大规模搜索,应改用云中提供的索引。
全球搜索的成本和准确性
为了估计针对整个序列库(如ENA或SRA)进行精确搜索和比对的总成本,使用MetaGraph索引了来自Logan contig集的47个随机子集,每个子集包含100个研究,产生了性能优化(中位数35.6 GB)和空间优化(中位数23.2 GB)的索引。平均而言,索引每个样本需要0.2核心小时,在Amazon AWS上每个样本的成本为0.0025美元。
创建了一个额外的索引,来自整个SRA中随机抽样的100个研究的原始读段集,使用样本清洗策略。每个样本的构建成本为0.028美元,其中超过90%的工作用于预处理原始测序数据。然后估计了不同查询大小的k-mer匹配和比对的吞吐量。假设按需查询,在查询之前将每个索引从云存储下载到本地RAM。对于每个查询大小,选择成本最优的Amazon AWS云计算节点,考虑索引的数据传输和查询时间。
通过查询读段对抗随机子集索引来估计成本,然后通过乘以252.6来放大到整个SRA(截至2025年1月11日,33,337,531个公共访问,67 Pbp)。这现实地估计了搜索所有公开可用序列集的成本。图5a显示了不同查询大小的每千碱基对(kbp)的缩放查询价格。对于大查询,索引加载是次要成本,查询变得便宜,精确k-mer匹配低至每Mbp 0.74美元,对齐搜索低至每Mbp 18.02美元。
讨论
研究人员着手证明索引整个测序档案(如EBI的ENA或NCBI的SRA)的实际可行性,目标是使它们能够进行准确且经济高效的全文本搜索。这项任务的主要挑战是跟上不断增长的生物测序数据量。作为解决方案,提出了MetaGraph——一个高度可扩展和模块化的框架,旨在索引和分析非常大的生物测序数据集合。
总共处理了近5 Pbp的公共SRA/ENA数据,并将其转换为可进行全文搜索的压缩索引,将输入数据大小减少了约7,400倍(对于高度冗余的序列集)和平均约300倍(如随机100研究子集)。这不仅使数据更容易访问,而且使数据易于跨分析站点传输。
具体来说,索引了各种DNA和RNA序列集合,包括NCBI SRA中所有公开可用的全基因组测序样本的相当大部分。特别是,索引了SRA中相当大部分的微生物、真菌、植物、人类和人类肠道宏基因组以及后生动物样本,它们共同组成了1,903,327个读段集中的2.6 Pbp。此外,还索引了其他几个多样且具有生物学相关性的数据集,从参考基因组到原始宏基因组读段。最后,索引了Logan项目中预组装成contigs的超过1600万个公共SRA样本。MetaGraph索引所需的存储空间比原始gzip压缩的FASTQ输入少几个数量级,并提供了对其各自输入数据的生物学结构和组成的见解,同时证明了持续的高重比对性。
MetaGraph的开发是在一个高度活跃的研究社区的背景下进行的。其作为模块化框架的设计使我们能够受益于未来的技术改进。许多新的令人兴奋的方法,如表示k-mer集、使用近似成员查询数据结构、动态更改k-mer集、改进的注释压缩以及替代比对和种子方法,将是MetaGraph未来扩展的有趣途径。
结论
这里呈现的结果是计算基因组学的一个重要里程碑,证明了在PB级生物序列库中进行准确且经济高效的搜索的可行性,并使它们更容易进行探索和计算分析——这是当前具有高度实际相关性的紧迫问题。已经证明,在所有可用的原始和组装测序数据中准确且经济高效地搜索和比对核苷酸序列是可行的。几年前被认为非常具有挑战性的任务,例如在几千个读段集中索引和搜索,现在变得易于处理,并且可以在现代笔记本电脑上轻松完成。
设想MetaGraph作为一个多功能和模块化的框架,使研究人员能够使用典型的学术计算集群执行大规模比较基因组学和医学分析,使公共数据集真正开放和交互式可访问。设想MetaGraph索引可以促进生物序列上的大规模学习任务,例如训练大语言模型。例如,MetaGraph索引可以作为一个数据库,高效生成用于模型训练的序列,包括先前观察到的和新颖的序列重组。
最后,相信这里提出的方法可以被使用并整合到大型数据存储库(如ENA和SRA)的基础设施中,使存储在这些存储库中的所有测序数据可搜索,从而提供一个小型但高效的“DNA谷歌”原型。值得注意的是,提供这项整个服务的成本相对于首先生成这些数据所支付的价格以及在ENA和SRA中存储它的成本来说相对较小。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号