泛基因组图:开启复杂变异与群体基因组学研究新纪元

《Quantitative Plant Biology》:Complexity welcome: Pangenome graphs for comprehensive population genomics

【字体: 时间:2025年10月28日 来源:Quantitative Plant Biology 2.5

编辑推荐:

  本文针对传统线性参考基因组在表征物种内遗传变异时存在的参考偏倚和结构变异捕获不足等局限,系统回顾了泛基因组图(pangenome graph)技术的发展历程。研究人员详细阐述了从基于变异先验的参考基因组增强策略,到基于全基因组比对的“比对优先”范式,再到基于k-mer或基因家族等可扩展替代方法的构建策略,并讨论了其在基因分型、功能基因组学(如转录组、表观基因组分析)以及可视化、标准化等方面的应用挑战与前景。该综述为在植物等具有高度基因组复杂性和多样性的物种中更全面、无偏地表征遗传变异提供了重要理论框架和方法学指导,对进化生物学和作物育种等领域具有深远意义。

  
在基因组学研究的早期,科学家们通常以“某某物种的基因组”为题发表首个近乎完整的基因组序列,这背后隐含着一个假设:同一物种的不同个体间共享着大部分的基因组序列。诚然,通过研究物种间保守的基因、蛋白质及其调控元件,我们获得了丰富的生物学知识,物种间共性与差异极大地增进了我们对不同时间尺度上演化过程的理解。然而,要真正理解生命的运作机制,我们不能忽视个体间的遗传差异。这些差异不仅是适应特定环境的根源,也 underlying 了对疾病和非生物胁迫的易感性。这些看似有害的变异往往与演化上的权衡取舍相关联,即对一种环境有利的基因和等位基因在另一种环境中可能成为负担。
因此,在首个物种基因组论文发表后,科学家们很快便开始尝试在全基因组水平记录个体间的差异。以植物拟南芥(Arabidopsis thaliana)为例,其首篇基因组论文就已经包含了除主要测序株系外的第二个株系的鸟枪法测序信息。随后,一系列基于不同技术的全基因组多态性分析相继发表,分辨率不断提高。有些方法原则上可以 interrogate 参考基因组中的每一个位置,但受限于可记录的序列差异程度,在高度差异或缺失区域,确切序列仍然未知。当更廉价的短读长测序技术登上舞台时,这种情况依然存在,尽管随着读长的增加,基因组中越来越多的区域变得可以进行多态性分析。重要的是,短读长测序使得获取原始参考基因组中不存在的序列成为可能,其中一些甚至可以被锚定到参考基因组的位置上。其他植物物种,特别是水稻和玉米等作物,情况大体相似,尽管通常延迟了几年。
使用短读长序列来识别与参考株系不同的序列多态性,始于将读段比对到参考基因组序列。因此,一个局限性在于参考偏倚(reference bias),这是由特定短读段与其目标序列之间的错配程度引起的。尽管存在错配仍可能实现 confident 的比对,但使用亲缘关系更近的基因组可以比对更多的读段。这一认识很早就催生了构建“合成”参考基因组序列的建议,以代表基因组中所有可能的多态性组合,包括尚未在被分析基因组中发现的那些。
一个不那么明显的问题是,某个特定序列可能在一个基因组中只出现一次,但在另一个基因组中出现多次。即使一个序列只出现一次,它在不同个体中也可能位于基因组的不同区域。在这两种情况下,短读长比对都可能产生误导。例如,当短读长测序的基因组中存在两个亲缘关系相近但不完全相同的重复片段时,可能会错误地推断出杂合性。
为了克服单一参考基因组的局限,泛基因组(pangenome)的概念被引入,旨在捕捉物种内的所有序列变异。这一框架最初应用于细菌基因组,量化了群体中的核心基因和可有可无基因(dispensable genes),揭示了广泛的多样性。随着测序成本的下降,泛基因组方法被扩展到真核生物基因组,包括人类和拟南芥。随着时间的推移,这一概念演变为一个更广泛的模型, encompassing 一个群体、物种或支系的全基因组景观。一个有点不幸的事实是,如今“泛基因组”更多地指代特定一组基因集的集合,而非理想中一个群体内所有 reasonably common 的变异的集合。
泛基因组图的演化之路
克服线性参考基因组局限性的一种直观方法是通过基因组图(genome graphs),它提供了一种紧凑的数据结构,其中序列被表示为带节点标签的图,边连接着多个基因组中的变异。与传统的线性表示不同,基因组图通过追踪序列图中的路径来保留原始坐标, accommodating 共享和独特的基因组区域。泛基因组图的 interpretability 和细节水平存在于一个二维谱上。在一个极端,高度抽象的图(例如,那些用大量循环和替代路径表示每个核苷酸变异的图)可能难以理解且实用性有限。在另一个极端,未比对的基因组序列虽然易于解释,但可能掩盖有意义的基因组差异。根据方法的不同,基于固定k-mer的德布鲁因图(de Bruijn graphs)和完全比对的多个体基因组代表了这一连续谱上的不同点。
变异优先:增强参考基因组
早期的泛基因组图构建受限于现实:高质量基因组组装成本高昂且稀少,而重测序项目产生的变异目录却很丰富。这种不平衡导致了参考基因组增强方法的发展,这些方法将已知变异嵌入到线性参考骨架中。这些方法通常在同一工作流程中整合了变异基因分型,但此处我们重点关注图构建方面。
Schneeberger 及其同事通过 GenomeMapper 开创了这一概念,证明在拟南芥中纳入已知多态性可以减少比对偏倚。该方法后来扩展到人类主要组织相容性复合体(MHC)区域,该区域的高多样性使得线性参考尤其不适用。这些早期的成功确立了一个基本原则:图表示可以比线性序列更忠实地捕捉变异。几个研究小组将其推广到数千个人类个体的全基因组,每个小组使用了不同的策略。
GraphTyper 通过嵌入基因组图对短读长进行迭代重比对、裁剪和未比对区域处理,用于小变异 calling。VG 工具包(Variation Graph toolkit)成为第一个针对这种参考增强范式的综合性开源框架。VG 通过将来自 VCF 文件的已知变异“穿线”到参考基因组中,或直接从基因组比对中创建代表不同等位基因状态的替代路径来构建变异图。它支持复杂的结构变异(SVs),包括重复和倒位,使用双向循环图。Graph Genome 管道也支持用于基因分型的 SVs,速度快,但仅限于人类基因组且非开源分发。
由于从预计算的 VCF 文件构建图的灵活性,VG 已成为许多流程的 backbone。通过整合源自基因组组装或过滤后的长读长比对的变异,基于 VG 的工作流程已成功应用于多种物种,包括人类和作物。
比对优先范式:迈向无偏表征
随着长读长测序成本的下降和质量的提高,生成多个高质量基因组组装变得越来越可行,将瓶颈从数据生成转向比较分析。这一转变使得泛基因组图构建的新范式成为可能——从基于参考的变异穿线转向直接通过全基因组比对进行图构建,采用“比对优先”的方法。理论上,这种方法可以减少参考偏倚,并更好地捕捉复杂的结构变异,包括使用基于 VCF 的模型难以编码的倒位、重复和重排。
甚至在基因组图被正式引入之前,多基因组比对(MGA) already 充当了跨组装共享和 divergent 序列特征的隐式表示。多序列比对(MSA)自然适合表示为部分有序序列(POA)图,后者已被扩展为 A-Bruijn 图和 cactus 图,以更好地适应基因组重排和重复。Mauve 和 TBA(Threaded Blockset Aligner)代表了跨多个物种比对基因组区域的最早努力。Vaughn 及其同事最近使用 progressiveMauve 比对甜瓜基因组,并将其转换为基因组图用于基因分型。
为了桥接传统比对和图构建,一些中间工具被开发出来。REVEAL(Recursive Exact-Matching Aligner)采用递归精确匹配策略来构建比对,而像 NovoGraph 和 Seq-seq-pan 这样的工具利用渐进式或基于块的比对策略,将 MGA 扩展到大量基因组。ProgressiveCactus 使用基于引导树的比对策略 dramatically 提高了可扩展性。其输出可用作 VG 工具包的比对输入,从而能够在酵母中包含大的重复和倒位。这种方法提供了将 MGA 转换为图的首个工作流程,该图既可用于推断基因型信息,也可用于短读长比对。SibeliaZ 基于德布鲁因图的信息 generalized 这些思想以构建改进的 MGA。
人类泛基因组参考联盟(HPRC)通过发布由 47 个人类个体构建的初始泛基因组草案极大地推动了该领域的发展,该草案使用了 Minigraph、Minigraph-Cactus 和 PGGB(Pangenome Graph Builder)等方法构建。Minigraph 扩展了 minimap2 的链式(chaining)算法,以渐进方式将大的 SVs(>50 bp)添加到图中。Minigraph-Cactus 利用 Minigraph 产生的图作为骨架,然后在对与所选参考序列高度 divergent 的序列进行“裁剪”(clipping,即移除无法 confidently 比对到目标基因组的读段部分的技术术语)后,添加碱基水平的比对。这些图的细节取决于输入序列的顺序或基因组集合中样本间的 divergence,但它简化了图结构,使其适用于下游基因分型任务。类似地,ACMGA(AnchorWave-Cactus Multiple Genome Alignment)将 cactus 与 AnchorWave 结合,后者改善了植物基因组中长重复序列的比对,用于检测大的 SVs。Huijse 及其同事发现,在人类基因组高度差异的 MHC 区域,AnchorWave 在产生比对方面优于 Minigraph-Cactus。PGGB 试图通过使用 wfmash 构建全对全(all-to-all)基因组比对,并用 seqwish 和 gffaix 渲染,然后使用 smoothxg 进行进一步共识序列构建,来捕捉输入序列中的所有变异。虽然这种方法提供了更全面的变异表示,但全对全比对的计算需求是巨大的。与构建全基因组图不同,PGR-TK(PanGenome Research Tool Kit)使用为长读长组装设计的数据结构快速构建特定区域的子图;它被证明在重建 MHC 单倍型的复杂变异方面非常快速,但其使用需要大量专业知识进行参数调整和结果解释。
全基因组比对的可扩展替代方案
在过去的十年中,构建和查询大型基因组图的复杂性和可扩展性挑战日益明显。因此,研究人员探索了基于特定序列块(如直系同源基因或 k-mer)而非碱基分辨率 DNA 序列的泛基因组分析。已经开发了不同的策略以使泛基因组分析更具可扩展性,每种策略都有其权衡取舍。
基于 k-mer 的方法计算效率高,使其对大规模比较具有吸引力。然而,它们牺牲了序列上下文,并且在复杂的真核生物基因组中难以区分重复序列。相比之下,基于基因的方法更具可解释性,并且可跨基因组扩展,但严重依赖于良好的基因注释。注释质量又取决于一系列因素,例如 RNA 和蛋白质组学数据的可用性、基因组是否来自包含其他注释良好的基因组的分类群等等。好消息是,在个体(组织和条件)、群体、物种和更高阶分类群水平上 ever more comprehensive 的采样无疑将改善基因注释。
在细菌泛基因组学中,通过 OrthoMCL 进行 orthogroup 聚类生成的基因 presence-absence 矩阵一直是标准。这一策略随后通过整合基因图在工具如 PPanGGOLiN 和 Panaroo(具有 partitioned 和 fixed 注释错误)中得到扩展。GCB(Genome Complexity Browser)通过 orthogroup 推断可视化和量化变异性。PanPA 基于蛋白质序列比对构建图,而 Pangene 利用快速蛋白质比对为真核生物基因组构建基因图, enabling 分析基因拷贝数变化和方向——remarkably,它可以在不到一分钟内从 100 个人类单倍型构建一个图。
尽管基于固定 k-mer 的隐式图为基因组多样性提供了有价值的快照,但其分辨率 inherently 有限,其他工具采取了不同的途径。PanTools 检测同源群组并构建用于 pan-proteome 查询的数据库,而 PanKmer 和 Panagram 将组装的基因组分解为 k-mer 数据库,并具有进一步定位组装体中特定位置的能力。此外,像 Biforst 和 mdBG 这样的方法高效地构建德布鲁因图用于存储和快速查询;它们可以应用于使用短读长对可变串联重复进行基因分型,但它们在准确表示完整基因座以供下游分析方面存在不足。
图时代的变异检测
一旦构建了泛基因组图,它就可以作为增强的参考,用于对重测序样本进行基因分型——通过比对读段或匹配 k-mer——捕捉比线性参考更广泛的序列变异范围。虽然许多当前工具依赖于读段比对或 k-mer 比较来识别单核苷酸多态性(SNP)和结构变异,但一些工具已经 advanced 到支持单倍型重建和新变异检测——这些能力在使用长读长重测序时尤其有效。
在这些工具中,应用最广泛、功能最全面的之一是 VG 工具包,它提供了用于比对、小变异 calling 和结构变异基因分型的综合框架。VG 自其首个开源版本发布以来已变得流行。它还在古代样本中减少了参考偏倚。另一个 VG 模块,Giraffe,作为 VG map 的继任者被开发,以加速大规模基因分型的过程。PHG(Practical Haplotype Graph)利用成熟的线性参考比对工具(例如 GATK)进行作物后代的基因分型。DRAGEN(Dynamic Read Analysis for GENomics)是目前针对泛基因组参考进行比对和基因分型最快的工具,利用了硬件加速和机器学习技巧,但它需要商业许可。除了直接比对到图,另一种方向是先将读段比对到多个参考,然后根据比对坐标将它们“注入”到图中;一个例子是 Gfa2bin 和 cosigt,后者使用 bwa 比对后多个参考的节点覆盖度进行基因分型。此类方法受益于线性参考比对的成熟度及其输出与下游基于图的分析的兼容性。
将长读长直接比对到基因组图已变得越来越可行。Graphaligner 是第一个通过种子扩展(seed-and-extend)策略实现长读长比对到图的工具,速度比 VG 快得多。Minigraph 可以在没有碱基水平比对的情况下找到近似的比对位置,而 Minichain 引入了重组惩罚用于长读长比对到图。
为了规避全比对的计算成本,许多工具采用 k-mer 比较策略,将测序读段与图中编码的已知变异进行匹配。PanGenie 和 KAGE 比较读段的 k-mer 与泛基因组图以减少运行时间和比对偏倚。EVG(Ensemble Variant Genotyper)是一个旨在通过考虑植物物种特异性基因组特征来标准化各种基因分型工具性能的框架。Varigraph 进一步优化了基于 k-mer 的方法的内存效率,并将模型扩展用于同源多倍体基因组的剂量估计。一个缺点是这些工具 only genotype 已知的变异 independently,因此无法重建群体中的单倍型。为了弥补这一差距,Locityper 和 cosigt 被开发出来,利用读段比对谱来定位图中最接近的单倍型。
此外,直接从泛基因组图进行结构变异 calling 仍然是一个关键挑战。为了克服这些问题,SVarp 通过 locally assembling 长读长数据中潜在的 SV 等位基因来解决,而 PALSS 则通过 augmenting 图与样本特异性长读长的共识序列,而无需比对。
总之,泛基因组图构建领域是动态发展的,没有单一工具占主导地位;最佳工具选择取决于具体的研究目标和所需的分辨率。例如,基于参考的变异图便于跨广泛队列的群体遗传学分析,但可能遗漏某些基因组变异。像 PGGB 这样的工具提供了全面的图表示;然而,其复杂性可能对下游应用(如 VG Giraffe 比对)构成挑战,需要 tailored 的剪枝策略以实现有效的读段比对。值得注意的是,工具开发和基准测试的努力主要集中在人类基因组学上。鉴于非人类物种,包括植物基因组,通常比人类基因组更多样化,有必要在更多样化的物种中扩展对泛基因组构建和使用工具的评估。
功能泛基因组学:连接变异与机制
参考偏倚不仅影响变异发现。其缺点还会对下游功能分析产生连锁反应,包括染色质可及性、基因表达或 DNA 甲基化的比较。与基因组图在结构变异 calling 和基因分型方面日益增长的应用相比,在利用基于图的框架进行功能基因组学方面还需要做更多的工作。
Grytten 等人实施了 Graph Peak Caller,使用拟南芥的变异图来识别 ChIP-seq 峰,发现的在线性参考中缺失的碱基对数量是以前方法的两倍多。DNA 甲基化研究揭示了 analogous 的好处,并且也强调了功能检测中参考偏倚的程度。在牛中,使用错误的参考基因组可能导致甲基化定量的 substantial 错误,全球偏倚高达约 2%,大量甲基化胞嘧啶受品种特异性变异影响。在拟南芥中,甲基化分析对参考选择 even more sensitive,只有约 88% 的位点在参考和焦点株系之间一致,一个主要原因是转座因子(TE)——DNA 甲基化的主要靶标——在该物种中的活性远高于人类。为了解决这个问题,methylGrapher 引入了第一个基于图的方法用于 mapping 亚硫酸氢盐测序数据。与传统方法如 Bismark 相比,它在五个人类样本中 uniquely identified 了 2.2~2.9 百万个 mCpG,其中许多在参考中不存在或之前被错误分类为未甲基化。
参考偏倚也影响 RNA-seq 分析。在拟南芥中,表达量估计值对于一部分基因存在差异,取决于读段是比对到参考基因组还是该材料自身的基因组;这些基因 strongly enriched for 转座因子和拷贝数可变基因座。在大麦中观察到了 similar trends,但比率更高,将转录组读段比对到由 20 个基因型构建的 pan-transcriptome,与单一线性参考相比,比对率提高了约 11%。VG rpvg 通过构建剪接的泛基因组图并沿着单倍型解析的路径量化表达,将基因组图方法扩展到 RNA-seq 分析。这些方法提高了准确性,并 enabling 单倍型特异性定量,即使在没有先验单倍型 phasing 的情况下,但它们 ideally 基于全面的 pan-transcriptome 注释,而这在大多数物种中是缺失的。单倍型信息反过来在远交物种中非常有用,或许在具有复杂等位基因比例的多倍体物种中更是如此。
尽管取得了这些进展,基于图的功能基因组学方法仍处于起步阶段。开发的工具很少,大多数仍局限于模式物种的概念验证应用。即使存在工具,更广泛的采用也很缓慢,部分原因是缺乏全面的功能注释和图感知分析工作流程的复杂性。将这些方法扩展到多个组学层面——包括甲基化、表达、染色质状态和染色质可及性——以及到具有更复杂基因组的更多样化物种,仍然是未来研究的关键挑战。
导航错综复杂的图:可视化、比较与可扩展性
尽管存在多种图构建策略,但大多数方法现在采用图形片段组装(GFA)格式来存储图信息。不幸的是,查询大规模泛基因组仍然具有挑战性,因为这些图固有的复杂性和巨大尺寸。例如,VG 工具包提供了一套多功能函数来构建、转换和操作基因组图,但即使使用 VG,从 Gb 级别的泛基因组中提取信息也可能 non-trivial。为了克服可扩展性问题,一些专用工具被开发出来。
ODGI(Optimized Dynamic Genome/Graph Implementation)实现了可扩展算法,用于在多分辨率下可视化图、提取特定基因座以及比较路径相似性。同时,像 Gretl 这样的工具旨在通过提供一系列用于图描述和比较的定量指标来评估多个图的质量。PANCAT 使用编辑距离度量来表征源自同一序列集的变异图之间的差异。
在可视化方面,早期的基于 GUI 的工具如 Bandage 和 GfaViz 提供了组装图的整体视图,但在碱基水平或 Gb 级别的泛基因组图方面能力有限。VG view 和 VG viz 可以显示长达约 100 kb 的序列,而 SequenceTubemap 采用直观的可视化模型(灵感来自公共交通网络图)来显示变异图以及适当尺度的读段比对。Momi-G 扩展了这一概念,用于人类变异图中的大规模结构变异检查,ODGI viz 进一步扩展了 VG viz 的布局,导出的光栅化图像适用于染色体规模的基因组图。
将图布局与功能注释整合的努力也正在出现。例如,VRPG 是一个用于线性参考投影泛基因组图的可视化和解释框架,它基于参考路径坐标和注释提取子图,而 PPanG 适配了 SequenceTubemap 框架,通过嵌入的 JBrowse2 组件实时显示多个基因组注释。此外,Gfaestus 利用 GPU 框架可视化来自 HPRC 等项目的完整图,而 waragraph 可以交互式地将注释信息集成到 ODGI 布局中。
与图构建相比,泛基因组图的可视化和比较明显滞后。虽然存在多种用于组装和处理变异图的工具,但仍然缺乏一个全面的、可扩展的、交互式的可视化框架,能够高效处理大规模泛基因组并连接功能注释。随着泛基因组迅速扩展到数百个个体,甚至可能超越物种界限,从图中复杂的缠结中提取生物学知识需要比现有工具更好的工具。
结论与展望
真核生物泛基因组学的发展已经进入一个变革阶段。测序技术和组装算法的进步使得在群体规模上生成高质量基因组变得可行。因此,由数十到数百个组装构建的泛基因组参考 now exist for a growing number of species,包括基础物种如拟南芥、关键作物以及人类。其应用表明,额外的变异捕捉了部分先前遗漏的遗传力,发现了更多变异与农艺性状之间的关联,并且能够揭示 well-studied 基因座的复杂演化历史。
然而,以无偏和全面的方式捕捉一个物种全谱变异仍然是一个挑战。虽然像 Minigraph-Cactus 这样的工具使用迭代构建来简化图比对过程,但它们对输入顺序敏感,并且倾向于丢弃与参考差异太大的序列——这对于高多样性物种尤其成问题。另一方面,全对全比对方法,如 PGGB,提供了更完整的图,但需要 substantial 的计算资源,使得它们对于涉及数百个基因组的数据集不切实际。类似地,基因分型工具面临大规模图的可扩展性限制:例如,VG Giraffe 通常在比对前将单倍型 down samples 到 64 个。
这些领域的进展依赖于用于验证的高质量基准数据集的可用性。然而,这样的资源在非人类物种中稀缺,即使在人类基因组学中,基准测试也 often confined to 少数 well-characterized 个体。这造成了系统性偏倚,限制了我们评估基因组图捕捉稀有、复杂或群体特异性变异的能力。开发 robust 的指标和比较框架来评估图质量仍然是该领域的一个关键方向。
此外,对双等位基因 SNP 模型的持续依赖限制了能够解释泛基因组变异全部复杂性的群体遗传理论的发展。然而,结构变异(SVs)是由多种 distinct 突变机制产生的——包括非同源末端连接(NHEJ)、非等位基因同源重组(NAHR)、模板转换、嵌套转座子插
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号