综述:长读长时代、泛基因组图和近完整组装下的牛结构变异探索

《Journal of Animal Science and Biotechnology》:Exploring cattle structural variation in the era of long reads, pangenome graphs, and near-complete assemblies

【字体: 时间:2025年11月25日 来源:Journal of Animal Science and Biotechnology 6.5

编辑推荐:

  本综述系统阐述了长读长测序(PacBio HiFi/ONT)、泛基因组图和端粒到端粒(T2T)组装技术如何推动牛结构变异(SV,≥50 bp)研究。作者强调这些技术克服了短读长测序的局限,能精准检测复杂SV(如嵌套/重叠变异),并解析着丝粒、端粒等重复区域。文章指出整合SV目录与多组学数据、人工智能(AI)模型将促进SV在育种(如饲料效率、疾病抗性)和保护中的应用,尽管仍面临成本、功能验证等挑战。

  

引言

家畜基因组学已为农业提供了强大工具,用以改良生产效率、疾病抗性和适应性等性状。其中,牛(包括普通牛Bos taurus和瘤牛Bos indicus)对全球食品安全和经济增长至关重要,其遗传多样性受驯化、选择性育种和对不同环境适应的影响。虽然基于单核苷酸多态性(SNP)的全基因组关联分析(GWAS)已鉴定出数千个与复杂性状相关的变异,但它们通常只能解释一部分遗传方差,大量“缺失遗传力”仍未解决。结构变异(SV,≥50 bp),包括插入、缺失、倒位和易位,覆盖更大的基因组区域,通常产生更强的功能效应,如改变基因剂量、修饰调控元件或暴露隐性等位基因。在人类中,SV解释了相当大比例的基因表达差异,并富集在GWAS位点,尤其是大于20 kb的SV。然而,许多SV位于重复区域,使得通过短读长测序或SNP芯片难以检测。
早期的牛研究使用微阵列和短读长测序来鉴定拷贝数变异(CNV)和其他SV。研究表明,约3.1%的牛基因组由近期重复序列(≥1 kb,≥90%一致性)组成,通常以串联阵列形式聚集。全基因组调查 across 不同品种,并得到FISH和qPCR等正交验证方法的支持,将SV与寄生虫抗性、饲料效率和乳用性状联系起来。大约75%的缺失和重复与SNP存在连锁不平衡(LD),但约25%未被SNP芯片捕获,这凸显了需要进行SV感知的基因分型。然而,短读长测序方法存在局限,仅能检测30%-70%的SV,并且经常错误分类重复区域的变异,假阳性率高达85%。标准的读对、读深和分裂读分析等方法无法解析重复或结构复杂区域——而这正是SV富集的地方。此外,大多数SV caller未能将变异分配给单倍型,限制了下游与复杂性状的关联分析。
认识到短读长测序在复杂区域的局限性,为长读长测序的应用铺平了道路。利用PacBio HiFi、牛津纳米孔技术(ONT)和Hi-C技术,端粒到端粒(T2T)联盟已经发布了第一个人类无间隙基因组,以前所未有的清晰度解析了重复和结构复杂区域。最近高质量、染色体级别牛基因组组装的激增反映了人类基因组学的趋势,为填补空白和捕获群体多样性提供了新机会,为更深入地理解结构变异、适应和性状生物学打开了大门。

长读长测序

长读长测序和互补的长范围作图方法已经改变了基因组研究领域,它们现在共同提供了近乎完整的基因组组装和前所未有的SV分辨率(图1B)。PacBio HiFi测序通过环状共识测序(CCS)将错误率降至接近0.1%,已成为变异发现、组装和表观基因组学的标准。最近的PacBio Revio平台进一步扩大了通量(360 Gb/天),使得每年能够以约1000美元的成本测序约1300个基因组,并整合了DeepConsensus以提高准确性。ONT则以其超长读长(通常长达数百kb)作为补充,而Hi-C提供的长范围染色质互作信息有助于单倍型定相和支架构建。
使用长读长进行SV检测出现了两种主要策略:基于读长的方法和基于组装的方法。基于读长的方法使用Minimap2、NGMLR或lra等比对工具将长读长映射到参考基因组,然后使用cuteSV、SVision、Sniffles2或pbsv等程序进行SV calling。这些方法在低覆盖度(~5x HiFi)下表现良好,能处理杂合SV和重复,但受参考序列偏差限制。相比之下,基于组装的方法使用de novo基因组组装,然后使用Hifiasm、SVIM-asm和PAV等工具进行全基因组比对。这些方法擅长发现大片段插入和新序列,但需要更高的覆盖度(~20x)和更多的计算资源。最近的两篇基准测试文献阐述了它们的优势、局限、输入要求和应用实例。研究表明,基于读长的方法在低覆盖度下实现高召回率,而基于组装的方法提供更广泛的变异类别和跨数据集的更高稳定性。两篇综述都强调,整合基于读长和基于组装的call集对于全面发现SV至关重要。
相同的技术正被应用于牲畜,实现了高度连续和准确的组装,改善了SV检测和功能注释。在牛中,这些方法将推进品种特异性变异的表征,阐明适应性反应,并通过捕获短读长测序 previously 无法获取的变异来加强基因组预测。总之,长读长测序代表了向跨牲畜物种的全面基因组多样性目录的重大转变。

泛基因组图

传统上对单一参考基因组的依赖(通常源自特定品种)在牲畜基因组学中引入了显著偏差,排除了品种特异性或稀有SV,限制了我们对于种内多样性的理解。这一局限性,加上高分辨率长读长数据(PacBio, ONT)的分析挑战,推动了向泛基因组方法的范式转变。
泛基因组捕获一个物种的集体基因组多样性,包括所有个体共享的核心基因组和仅部分个体存在的可变基因组(图1C)。与仅提供部分视图的单一参考基因组不同,泛基因组提供了结构、单核苷酸、插入-缺失变异的更完整表示。当以图的形式表示时,共享序列形成节点,替代单倍型形成路径,“气泡”反映了结构变异。这样的框架既改善了变异发现,也提高了基因分型准确性,尤其是在重复和结构复杂的区域。
过去几年,基于图的方法论取得了快速进展。受人类泛基因组参考联盟(HPRC)等倡议的启发,新的计算框架被开发出来,包括vg(变异图工具包)、Minigraph、Minigraph-Cactus(MC)和泛基因组图构建器(PGGB)。这些工具能够构建具有越来越高灵敏度和可扩展性的泛基因组图。变异感知基因分型工具如PanGenie和Giraffe进一步将这些资源扩展到短读长数据集,允许在群体规模上进行高效的SV基因分型。它们针对大型图参考对SNP和SV进行基因分型,实现了比线性比对器更高的准确性,并支持从基于长读长的目录衍生的插补panel。对于长读长,新兴框架如序列比对图算法(SAGA)和Dynamic Read Analysis for GENomics(DRAGEN)中的图感知管道支持在图基因组内进行SV calling、注释和基因分型,包括用新等位基因增强图的能力。这些仍在成熟的方法,有望在减少参考偏差并改善SV分类(尤其是在重复或复杂基因组区域)的图框架内统一基于读长和基于组装的方法。
最近一项基于图的人类SV研究使用ONT对1000基因组计划中26个人群的1019个长读长基因组进行了测序,识别了167,291个序列解析的SV,并揭示了如LINE-1和SVA转导等机制。它提供了关于SV形成的关键见解,特别是涉及重复序列和同源介导的重排,证明了长读长测序对理解基因组结构和辅助疾病研究的影响。一篇配套论文报告了来自1019个样本中888个的多祖先SV插补panel。研究人员将其SV与1000基因组计划第三阶段的约4500万个变异整合,并使用英国生物样本库评估了插补准确性。指标根据次要等位基因频率、GIAB基因组区域类型(高置信区 vs. 困难区)和变异类型而异,在置信区域内,简单插入和缺失显示出较高的插补质量(平均一致性分别为0.718和0.721;平均r2imp=0.921和0.924),而在困难区域则略低。虽然SV的插补质量平均略低于SNV,但差异很小。该SV参考panel为SV插补和GWAS提供了坚实基础,识别了数百个独立的SV关联和新见解。这证明了在使用插补panel的工作流程中整合SV分析的价值。
在牛和其他牲畜中也取得了并行进展。例如,Pausch实验室使用变异图工具包开发了品种特异性和泛基因组参考图,显示出比传统线性参考更高的准确性,并发现了70 Mb的新序列。Leonard等人表明,来自单倍型解析组装的基于SV的泛基因组在不同平台和算法间高度一致,创建了具有良好一致性的多物种超级泛基因组。他们还利用16个PacBio HiFi牛组装构建了一个泛基因组来识别SNP和SV。在使用PanGenie通过短读长进行SV基因分型后,研究人员利用睾丸转录组数据进行了molQTL定位,识别了92个潜在的因果SV候选位点。这些研究共同证明了在牛基因组学中使用变异感知的基于图的方法的力量,提供了比传统线性参考更准确、更全面的遗传变异图谱。这些发现证明了将泛基因组数据整合到育种计划中的潜在价值,通过考虑与理想性状相关的SV,增强了标记辅助选择和基因组预测模型。应用不仅限于性状发现。通过整合来自不同品种的数据,牛泛基因组揭示了潜在环境适应性的群体特异性变异,例如热带品种的耐热性或温带品种的耐寒性。保护也受益:Prendergast实验室将116 Mb的非洲牛新序列整合到参考组装中,改善了读长比对和SV检测,有助于保护地方品种的多样性。总之,这些进展表明,基于图的泛基因组对牛基因组学具有变革性意义,提供了比线性参考更完整、更准确的变异目录。

基因组组装的进展

长读长测序极大地提高了基因组组装质量,实现了跨物种的高度准确的de novo组装。当与互补方法(如提供长范围支架以检测大片段SV的Hi-C)结合时,这些平台提供了具有前所未有的连续性和准确性的近完整基因组。长读长桥接重复区域,允许重建复杂SV,如串联重复。基于组装的方法支持跨个体和品种的无偏比较,捕获短读长或单一线性参考经常遗漏的变异。近完整组装现在解析着丝粒、端粒和节段性重复,揭示了具有重要功能作用的SV。群体特异性组装揭示了诸如抗病性等适应性,而结合HiFi、ONT、短读长和Hi-C的混合策略平衡了准确性与成本效益。单倍型定相在牛中取得了进展,将杂合SNP和SV分成连续的单倍型区块。像HapCut2这样的工具,加上长而准确的HiFi读长,增加了定相区块的中位长度,而Hi-C则进一步扩展了它们。其结果是完全定相的变异panel,改善了杂合SV的检测,并增强了对复杂性状的解释,在牛育种中具有直接应用。
具有里程碑意义的人类T2T组装(CHM13和HG0002)将 previously 无法访问的基因组区域向SV发现开放。在牲畜中,像山羊ARS1和牛ARS-UCD2.0这样的组装实现了约20 Mb的contig N50和近乎完整的保真度,为动物基因组学设定了基准。已经发布了数十个染色体级别的牛组装,包括荷斯坦牛、绵羊和山羊的T2T或近完整基因组,填补了参考空白,尤其是在免疫基因组区域。泛基因组工作已扩展到绵羊、瘤牛和牦牛,反映了向T2T和泛基因组框架的更广泛转变。在牛中,三个倡议正在引领进展:
  1. 1.
    反刍动物T2T(RT2T)项目——由Tim Smith领导,该项目正在生成跨反刍动物的完整二倍体组装,包括牛和绵羊的Y染色体,以及多个牛品种和近缘种(如野牛和河水牛)的近完成组装(图1D)。
  2. 2.
    牛泛基因组联盟(BPC)——由Ben Rosen发起,BPC正在利用约15个品种特异性组装构建全面的牛泛基因组,以在属水平改进SV和SNP检测(图1C)。
  3. 3.
    牛长读长联盟(BLRC)——由Amanda Chamberlain、Ben Hayes及其同事领导,BLRC正在将“千牛基因组计划”扩展到长读长时代,以生成用于基因组选择的群体规模SV和SNP目录。
同样,在我们最近对20头荷斯坦牛和10头娟姗牛进行20x HiFi覆盖度测序的泛基因组研究中,我们同时应用了基于读长(cuteSV, SVision, Sniffles2, SVIM, pbsv)和基于组装(SVIM-asm)的方法。经过滤后,我们平均每个样本识别出约28,500个高置信度SV,主要是插入和缺失,以及较少数量的重复和倒位。这与短读长方法(通常每个样本检测5,000至10,000个SV)相比显著增加。覆盖度实验表明,10x HiFi可实现约90%的召回率,假阳性率约为9%,在成本和准确性之间取得了平衡。与正交短读长SV call集的交叉验证支持了约74%的事件。重要的是,包含娟姗牛基因组不成比例地增加了独特SV的数量,证明了多品种取样的价值以及品种特异性变异的存在。这些结果突出了两个关键点:(1)群体规模的SV目录需要对每个品种进行数十个个体的测序,而不仅仅是少数几个,以避免遗漏大量变异;(2)长读长测序提供了稳定、高置信度的SV发现,使牛基因组学能够构建与人类基因组学中可用资源相媲美的资源。

未来展望与挑战

长读长测序、单倍型解析组装和泛基因组构建的最新进展从根本上扩展了我们表征牛SV的能力,超越了短读长数据的局限。荷斯坦牛和娟姗牛特异性SV目录为探索品种特异性变异奠定了坚实基础。基于这些资源,品种特异性定相泛基因组图和大规模SV插补panel有望改变下游应用,从更准确的变异基因分型到跨数千个个体的稳健关联研究。展望未来,将SV数据集整合到人工智能(AI)驱动的模型中可以进一步提高复杂性状的预测准确性,而跨物种泛基因组可能揭示对适应性和生产力重要的保守和谱系特异性遗传变异。结合转录组学、表观基因组学和单细胞分析等功能基因组学工具,这些策略有望识别新的功能变异,完善性状定位,加速基因组选择,从而改善遗传改良和牲畜管理策略。
尽管取得了这些进展,一些挑战依然存在。构建和维护高质量的品种特异性资源需要大量的测序和计算投入,这可能限制其在多样化牛群体中的广泛采用。与拥有庞大公共目录的SNP不同,SV仍然缺乏全面的验证数据库。因此,未来的研究必须开发共享的SV资源,以识别跨群体的变异共性,并实现功能注释。这些资源将填补主要知识空白,同时在保护和育种中提供直接应用,例如将SV与抗病性、饲料效率或局部适应性联系起来。SV插补和基于图的基因分型方法虽然强大,但必须进一步优化,以确保在不同祖先群体中的准确性,并与现有的基于SNP的基因组选择流程无缝集成。此外,SV-性状关联的功能验证仍然是一个瓶颈,需要整合多组学数据集、实验模型和跨品种比较。克服这些挑战对于将SV发现转化为实用的育种工具至关重要。未来的努力也将受益于AI方法的进步,以及对伦理、监管和数据共享挑战的仔细关注。

结论

SV是牛遗传多样性的关键驱动因素,影响健康、生产力和适应性。长读长测序、泛基因组技术和基因组组装的进展彻底改变了SV研究,使得能够精确洞察遗传变异。这些发现强调了基因组研究对改进牛育种和管理策略的变革潜力。将SV研究整合到育种计划和保护工作中,有望解决抗病性和可持续性等挑战。测序和计算工具的最新突破正在缩小研究与实际应用之间的差距,为靶向遗传干预铺平道路。然而,必须以可持续实践指导这些进步,以平衡生产目标与生物多样性保护。牛基因组学的未来在于全面、协作和创新的努力。通过利用多组学方法、AI驱动分析和基因组编辑技术,研究人员可以推动牲畜群体的可持续和弹性改善,保护遗传遗产,满足农业不断变化的需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号