《Genome Biology》:MGA: a tool for haplotype-mixed assembly of long and accurate reads
近年来,大规模基因组测序项目已经生成了近完整的二倍体组装,从而重建两个单倍型组(haplomes)。然而,生成此类组装仍然极具挑战性,通常需要大型团队、广泛的人工校正以及多种测序技术的整合。不过,对于许多物种和应用而言,近完整的单倍型混合组装——即表示两个单倍型组镶嵌体(mosaic)的组装——已经能够为下游分析提供大部分相同的收益。此类组装可仅利用HiFi读段,以更低成本自动生成。研究人员在此提出马赛克基因组组装器(Mosaic Genome Assembler, MGA),这是一种仅基于HiFi读段即可生成近完整单倍型混合组装的工具。结果表明,MGA明显优于现有单倍型混合组装器。
该论文发表于《Genome Biology》,核心目标是论证并实现一种仅依赖高精度长读段(HiFi)的高连续性单倍型混合组装方案。研究背景在于,随着HiFi读段推动端粒到端粒(telomere-to-telomere, T2T)组装的发展,二倍体组装已能同时重建双单倍型组,但这类流程通常依赖超长ONT读段、Hi-C、亲本-子代trio数据以及光学图谱等多技术联合,实施成本高、计算和人工分析负担重,且即便如此仍可能在高度重复区域(highly repetitive regions, HRRs)产生错误。对于大量非人类基因组研究而言,真正需要的是一个足够完整、足够准确、足够连续的参考序列,以支撑注释、比较基因组学和群体分析;在这一应用框架下,单倍型混合共识组装往往已足够实用。因此,研究人员提出,应重新评估二倍体T2T组装相对于高质量共识组装的收益与代价比,并开发面向HiFi单数据类型的高性能共识组装工具。
论文首先从概念上区分了T2T二倍体组装与T2T共识组装:前者力图分别重建两个真实单倍型组,后者则构建由两者片段拼接而成的“虚拟单倍型组”。研究指出,在非人类研究中,二倍体组装的独特优势往往有限,特别是在很多应用中,分相长contig或高质量共识组装已足以承担参考坐标系功能。此外,当前即使最先进的T2T二倍体组装也未真正完成全部复杂重复区域的解析,说明“完整二倍体组装”在现实中仍存在方法学上限。基于这一现实,研究人员将问题聚焦于:如何从HiFi读段单独生成接近完整的单倍型混合组装,并尽量降低相位切换(phase-switch)与断裂。
在方法层面,作者提出MGA,其理论基础是将共识组装问题置于de Bruijn图(DBG)和多重de Bruijn图(multiplex de Bruijn graph, MDB)框架下重新表述。论文还进一步抽象出共识基因组问题(Consensus Genome, CG Problem),即在由两个未知单倍型组诱导的图结构中,寻找最优“虚拟单倍型组”表示。MGA并非简单执行bubble collapsing,而是在LJA构建的分相组装图基础上,引入图清理、迭代图简化与scaffolding三大模块,以解决复杂detour、whirl、倒位重复缠结、覆盖度下降断裂和单倍型冗余等问题。
用于开展研究的主要技术方法可概括如下:研究人员以LJA生成的HiFi读段组装图为基础,结合覆盖度估计、多轮错误校正、低覆盖与嵌合读段剔除构建清洁读段集;随后在MDB图上执行detouring、dewhirling、decoupling、broken tip repairing和short edge contracting等图简化操作;最后利用短重叠和跨越读段进行scaffolding,并通过deduplication去除同源冗余contig。基准测试样本来源包括2个真菌数据集和4个哺乳动物数据集,分别为Puccinia triticina、Puccinia striiformis f. sp. tritici、人类HG002、倭黑猩猩、马赛长颈鹿和绵羊相关样本,比较对象包括hifiasm、Falcon、HiCanu、Flye及LJA + purge_dups。
**De Bruijn graphs**
论文首先说明MGA的图论基础。研究人员将目标从直接重建两个单倍型组,转为在分相de Bruijn图近似上生成单倍型混合共识序列。MGA采用LJA作为底层引擎,是因为LJA在HiFi-only组装中已表现出较高连续性与准确性。作者强调,MGA直接在MDB图上操作,而不是在普通DBG上操作,这一设计是其提升连续性并减少phase-switch的重要原因。
**Visualizing assembly graphs**
为理解复杂组装图,作者构建了压缩可视化框架,并引入按染色体着色的图表示方式,将图边与参考单倍型染色体对齐。通过倭黑猩猩示例,论文展示了不同染色体在组装图中如何被长重复序列相连,也说明标准bubble collapsing之后图仍然复杂,难以直接得到高连续性共识染色体。
**Outline of the MGA algorithm**
MGA流程分为三个阶段。首先是图清理:通过LJA初次建图后,根据边覆盖度推断平均覆盖度(Cov)与低覆盖阈值(lowCov),识别高覆盖边和低覆盖边;对高覆盖区域相关读段进一步纠错,对低覆盖与嵌合边相关读段进行剔除,得到清洁读段集Reads*。第二阶段是迭代图简化:依次进行detouring、dewhirling、decoupling、断裂tip修复和短边收缩。第三阶段是scaffolding:借助短重叠与桥接读段连接contig,并通过deduplication去除大部分被包含于更长contig中的同源contig,最终输出去同聚物压缩前的组装结果。
**Graph cleaning**
作者指出,即便LJA已进行纠错,图中仍含有假边和嵌合边。MGA因此增加额外纠错轮次,特别处理高覆盖区域中的残余错误,并清除低覆盖与嵌合读段,从而使清洁读段构建出的MDB图更接近真实双单倍型组图结构。该步骤是后续高质量共识组装的基础。
**Graph simplification**
这是MGA的核心创新之一。传统共识组装常依赖simple bubble塌缩,但真核基因组中的大量复杂区域并不呈现简单bubble形态。MGA在bubble之外,增加detouring去除两节点间的复杂替代路径,dewhirling处理串联重复形成的环,decoupling拆分由反向互补重复导致的正反链缠结,repairing broken tips修复由覆盖缺失引起的断裂,以及contracting short edges对复杂HRRs建立模型化表示。结果表明,这套更丰富的图操作显著提升了contig连续性。
**Scaffolding**
在图简化后,某些相邻基因组区域仍可能因局部覆盖下降而裂解为分离边或tip。MGA通过检测弱重叠以及利用桥接读段跨越小缺口,将这些片段进一步连接。随后,系统识别cognate contigs,即基本被更长contig覆盖、通常来自另一单倍型组的冗余序列,并将其去除,减少组装冗余。
**The consensus genome problem**
作者提出CG Problem,给出共识组装较为正式的算法学框架。其目标并非直接恢复未知真实单倍型组,而是在图上寻找一对虚拟单倍型组,使其生成相同图结构且彼此相似度最大。该理论模型为MGA中的图简化启发式提供了概念依据,也解释了为何“单一虚拟单倍型组”可作为有效共识表示。
**Datasets**
研究选取了两个真菌和四个哺乳动物数据集,以涵盖高多态真菌基因组和复杂大型动物基因组。评估指标主要包括N50、N90与phase-switch rate,并辅以CRAQ和VirtualHaplome等策略进行补充评价。作者特别注意到,若用某装配器生成的二倍体组装作为真值,会对该装配器有利,因此又构建模拟读段数据集进行更公平比较。
**Consensus haplome of human chromosome 21**
在人类21号染色体示例中,单纯处理simple bubbles和simple whirls后,图仍保留80个节点和112条边,无法得到连续共识组装;而引入MGA的detouring与dewhirling后,最终得到单一主边,形成长度39.8 Mb的共识染色体。该例直观证明,传统bubble collapsing不足以解决复杂单倍型混合组装问题。
**Comparing MGA and hifiasm on a simulated read-set**
在模拟RUSTsim数据集中,MGA和hifiasm都能组装成单一共识contig,但MGA的phase-switch rate更低,为1.2%,而hifiasm为2.1%。其他装配器产生10至14条essential contigs,明显更碎片化。这一结果支持作者后续将比较重点放在MGA与hifiasm之间。
**Assembly of the RUST dataset**
在Pt数据集上,标准bubble collapsing后图仍极其复杂,而MGA经图清理和简化后,得到18条长孤立边,对应18条Pt染色体的近完整共识组装。与hifiasm相比,MGA成功将全部18条染色体组装为近完整共识contig;hifiasm则在含超长rDNA重复的17号染色体上发生断裂。两者phase-switch rate接近,但MGA在完整性上更优。
**Assembly of the RUST-Pst dataset**
在Pst数据集上,MGA同样生成18条长共识contig,对应18条染色体的近完整T2T共识组装。hifiasm仅将18条染色体中的16条组装成单contig,并在9号和17号染色体上断裂,同时percent identity低于MGA,phase-switch rate也更高(5.2%对3.8%)。这说明即便参考单倍型组最初由hifiasm二倍体模式构建,MGA仍能取得更优结果。
**Assembly of the BONOBO dataset**
在倭黑猩猩数据集上,MGA将最终图简化为294个节点和160条边,并获得10条近完整T2T共识染色体。MGA共生成58条长contig,而hifiasm生成95条;MGA的N50为108.5 Mb,明显高于hifiasm的77.3 Mb,并在25条染色体中的18条上表现出更高连续性。作者还讨论了22号染色体与14号染色体共享长完美重复的问题,指出在无HiFi读段跨越时,MGA将22号染色体保留为2条contig,可能比hifiasm强行连接为1条contig更稳健。
**Assembly of the HUMAN dataset**
在人类HG002数据集中,MGA最终获得14条近完整共识染色体,共40条长contig,N50达到143.4 Mb;hifiasm得到65条长contig,N50为95.4 Mb,仅有3条染色体达到近完整共识水平。结果显示MGA在大型复杂人类基因组上同样保持明显连续性优势。
**Assembly of the GIRAFFE dataset**
在长颈鹿数据集上,MGA获得12条近完整共识染色体,其余染色体也仅被拆分为2至3条contig。MGA共23条长contig,N50为167.0 Mb,均优于hifiasm的36条长contig和109.4 Mb。作者还指出hifiasm在人为染色体Y上可能遗漏部分片段,进一步说明其在某些复杂区域中决策存在不足。
**Assembly of the SHEEP dataset**
在绵羊数据集上,MGA生成20条近完整共识染色体,共44条长contig;hifiasm则为61条长contig,仅13条染色体达到近完整水平。虽然MGA的N50略低于hifiasm,但作者发现hifiasm的N50甚至高于参考基因组,对应两条长嵌合contig且遗漏Y染色体,提示其较大的N50可能部分来自错误组装。MGA整体上表现更可靠。
**Running time and memory footprint**
论文指出,MGA的计算时间主要受LJA限制,因此整体慢于hifiasm。这反映出组装质量与运行效率之间的权衡:MGA以更高的连续性和更稳健的共识组装为代价,牺牲了部分速度。但作者强调,与需多技术整合的二倍体组装相比,单一HiFi数据驱动的MGA流程仍然具有总体成本优势。
讨论部分的核心观点是:MGA通过扩展bubble collapsing并结合多种图启发式操作,显著提升了单倍型混合组装质量。作者认为,对于许多非人类测序计划而言,高成本二倍体组装并非必要前提,而MGA生成的T2T级共识组装能够以更低代价支撑大量下游研究。论文也承认,当多个染色体的两个单倍型组共享无法被HiFi读段跨越的长完美重复时,MGA未必总能为每条染色体提供单一连续序列;此时可通过少量低覆盖ONT读段或参考辅助策略进一步弥补。研究还指出,参考辅助方法适合共识组装,却不适合二倍体组装,这进一步凸显两类问题的本质差异。
研究结论部分可译为:MGA应对了生成高连续性且高准确度单倍型混合组装的挑战。基准测试表明,与当前最先进的单倍型混合组装工具hifiasm相比,MGA实现了显著改进。尽管可以设想随着HiFi或ONT读段长度与准确度持续提升,单一测序技术最终也许能够常规化完成二倍体组装,但这一时刻尚未到来。当前二倍体组装仍依赖多种技术,且过程耗时、半自动化。即便读段长度显著增加,这一挑战也不会消失,因为完整二倍体组装的根本障碍在于同源染色体之间通常共享长的完全相同区域,即使极长读段也无法解析。相比之下,单倍型混合组装会直接受益于读段变长,因为单个单倍型组内部通常缺少大量长完美重复。因此,随着读段增长,单倍型混合组装的连续性可快速提高,而二倍体组装仍将受到单倍型间高度相似性的根本限制。