综述:基因组进化动力学:泛基因组分析时代的视角

《Cell Genomics》:Dynamics of genome evolution in the era of pangenome analysis

【字体: 时间:2025年11月23日 来源:Cell Genomics 9

编辑推荐:

  本综述系统阐述了长读长测序和端粒到端粒(T2T)组装技术如何推动泛基因组研究,彻底改变了我们对真核生物基因组变异(尤其是结构变异SV)的认知。文章重点探讨了泛基因组在全面鉴定SV、解析基因存在-缺失变异(PAV)以及揭示其在物种适应、驯化和疾病中的关键作用方面的巨大优势,同时指出了当前面临的计算挑战与未来发展方向。专业术语如结构变异(SV)、存在-缺失变异(PAV)、拷贝数变异(CNV)等均有详述。

  

现代泛基因组构建与完整性的视角

泛基因组的概念已从最初的物种全局基因库,演变为能够捕捉群体内全部遗传变异的参考框架。与基于单一基因组的线性参考不同,泛基因组需要整合多个个体的数据以反映群体多样性。评估泛基因组是否“饱和”至关重要,这通常通过构建稀疏曲线来实现。当添加更多个体不再增加观测到的多样性时,即认为达到饱和。所需个体数量因物种多样性而异,例如,酿酒酵母(Saccharomyces cerevisiae)需要约500个个体才能达到基因含量饱和,而水稻可能仅需30个。
构建策略主要分为两类:基于映射的方法成本较低,但可能遗漏复杂SV和在重复区域分辨率不足;基于组装的方法能提供更高质量的数据,但对测序深度和计算资源要求更高。人类泛基因组参考联盟(Human Pangenome Reference Consortium)的目标是利用350个分相的二倍体基因组构建图泛基因组,但目前高质量组装的数量仍然有限。这反映了样本数量与组装质量之间的核心权衡。

通过图泛基因组捕捉非参考序列

泛基因组的一个主要优势是能够整合线性参考基因组中缺失的新序列,即非参考序列(NRS)。图泛基因组是捕捉NRS和结构重排的强大工具。
图构建方法主要有两种:一种是通过长读长映射或基因组比对检测SV,然后将其整合到线性参考中;另一种是计算强度更大的全基因组比对方法。NRS的增加比例反映了采样群体的潜在多样性。在多样性低的群体中,线性参考已包含大部分序列,而多样性高的群体(如玉米属Zea)贡献的NRS比例更大。例如,水稻泛基因组的非冗余大小增加了162%,而酵母泛基因组增加了27%。在人类中,中国泛基因组、阿拉伯泛基因组参考和太平洋祖先泛基因组参考分别揭示了194.67 Mb、100.93 Mb和92.5 Mb的NRS,为研究这些特定人群提供了更好的参考。

泛基因组分析揭示的基因流与渐渗见解

基因流机制,包括古代杂交事件产生的渐渗和水平基因转移(HGT),是泛基因组中NRS的重要来源。拥有分相的近T2T基因组可以精确界定渐渗区块的边界和序列。例如,利用中国泛基因组,研究人员在东亚基因组中发现了富含丹尼索瓦人样古老渐渗片段。在酵母中,T2T基因组组装有助于解析染色体规模的渐渗结构。
检测基因流的方法也在适应泛基因组数据。ABBA-BABA测试可用于检测基因流,但其基于SNP(单核苷酸多态性)的计算并未完全利用泛基因组资源。利用泛基因组检测到的极罕见突变(如大的倒位)作为标记物,可以更有效地识别渐渗,因为其独立发生的可能性极低。此外,单倍型分歧度的计算也能揭示渐渗,因为渐渗会导致基因组局部区域单倍型分歧度降低。这种方法在水稻中发现了一个重叠着丝粒的4.48 Mb渐渗区块,在酵母中也报道了类似的着丝粒渐渗,表明即使是这些关键区域也受到基因流的影响。

跨真核生物泛基因组的SV多样性景观与起源

泛基因组能够全面识别群体中的SV。SV通常分为四类:存在-缺失变异(PAV)、拷贝数变异(CNV)、易位和倒位。
PAV是最丰富的SV类型,平均占非冗余SV的81.7%。倒位虽然罕见(约1.1%),但在水稻属(Oryza)中被广泛编目。CNV和易位分别占约10.3%和7.0%。
理解SV的起源至关重要。转座元件(TE)是SV形成的主要贡献者。在真核生物中,TE相关的SV占全部SV的23%至86%,多数在50%-80%范围内。同源序列也在SV形成中发挥作用,例如,62%的大片段插入缺失侧翼有≥50 bp的同源序列,提示同源定向修复或非等位同源重组的作用。SV在基因组中的分布不均匀,存在明显的热点区域,如染色体末端、rDNA位点、TE富集区以及抗病基因附近。然而,SV模式存在物种差异,例如着丝粒在黄瓜中是SV缺失的,而在拟南芥中却是SV富集的。
不同物种的结构多样性差异很大。植物物种通常表现出比动物更高的结构多样性,这可能与全基因组复制(WGD)事件有关,WGD增加了突变输入并通过掩盖隐性突变降低了纯化选择的效率。在核苷酸水平上,植物也往往比脊索动物更多样化。然而,目前尚未发现核苷酸多样性与结构多样性之间存在显著相关性。

基于基因的泛基因组的功能与进化见解

与包含全部基因组序列的图泛基因组不同,基于基因的泛基因组采用功能导向的方法,编目物种或属水平上所有个体中的所有基因。这涉及对高质量基因组进行注释,并根据序列相似性或同线性将预测基因聚类成家族(即直系同源群)。
基因家族按群体频率分类,其分布通常呈U型,即基因要么广泛共享,要么非常罕见。核心基因存在于所有个体中,而附属基因则存在变异,可分为软核心(存在于>90%的个体)、非必需和私有基因。基于基因的泛基因组分析紧密关联于开放和封闭泛基因组的概念。在封闭泛基因组中,随着测序基因组增多,基因总数趋于稳定并最终达到饱和。而在开放泛基因组中,新基因会随着新基因组的加入而持续增加。真核生物的基于基因的泛基因组通常显示出高比例的核心和软核心基因(50%-88%),表明其倾向于封闭泛基因组结构,基因流有限。相比之下,细菌泛基因组通常核心基因比例小得多(1%-40%)。
核心基因与附属基因在特征上存在明显差异。核心基因的CDS(编码DNA序列)长度通常长于附属基因。核心基因表现出较低的核苷酸多样性和非 synonymous 与 synonymous 替代比率,表明其受到更强的纯化选择。基因本体(GO)术语分析揭示了核心基因和附属基因在功能上的明显差异:核心基因富集于基础和必需功能,而附属基因则常常富集于次级代谢过程和应激反应。例如,在玉米属超级泛基因组中,类蜀黍特有的基因富集于应激反应,而驯化玉米则缺少许多应激反应相关基因,但含有与萌发、营养和风味相关途径的基因。此外,核心基因的表达水平通常高于附属基因,并且在更广泛的组织中表达。

泛基因组赋能发现SV与性状的关联

SV能够驱动重大的表型变化,这在多个物种中都有例证。例如,SV与人类Charcot-Marie-Tooth 1A型疾病和自闭症、酵母的亚硫酸盐抗性、小麦的叶锈病抗性等相关。评估SV对表型变异的整体贡献仍然具有挑战性。基于SV的全基因组关联分析(GWAS)和数量性状基因座(QTL)分析需要匹配的大规模群体基因型-表型数据。泛基因组为此提供了一个高效框架,能够实现低成本、大规模的SV基因分型。
在分子性状方面,研究表明SV对基因表达等性状的遗传力有重要贡献。在番茄中,将SV和插入缺失纳入模型后,性状遗传力比仅用SNP的模型平均提高了41%,其中SV解释的表型方差比例最大。超过一半的性状被归类为SV主导。在酵母中进行的SV-GWAS证实,虽然SV的平均效应大小略低于SNP,但SV相关的QTLs更为富集,并且表现出更大的多效性。
在生物体性状方面,许多研究已将SV与农艺性状联系起来。在驯化物种中,在栽培品种中比地方品种更富集的“改良基因”和SV是强有力的候选因果变异。例如,在酵母中,CUP1基因的复制与硫酸铜抗性相关,而SSU1基因的相互易位与亚硫酸盐抗性相关。尽管许多SV与附近的SNP存在高连锁不平衡,但一些QTLs仅在使用SV标记时才能被检测到,凸显了两种变异类型的互补性。图泛基因组使得重新分析现有的GWAS数据集成为可能。在人类中,泛基因组有助于鉴定影响医学相关基因(如RHD-RHCE血型基因和HLA-A位点)的复杂SV和新的单倍型,并发现大的SV往往靠近GWAS Catalog中与疾病相关的亚洲人群变异。区域泛基因组在识别其他血统人群可能缺失的致病变异方面发挥着关键作用。

结论与展望

种群规模的长读长测序使得跨物种和属的T2T泛基因组构建成为可能,从而实现了从SNP到大型SV的全面遗传变异检测。这些泛基因组增进了我们对SV分布、核心基因与附属基因特征以及选择下的基因组特征的理解。至关重要的是,它们通过实现大规模群体中常见SV的检测,促进了基因型-表型关联研究。
然而,构建真正具有代表性的变异目录不仅需要全面的变异检测,还需要对涵盖群体全部多样性的基因组进行采样。当前的数据集往往未能达到饱和,限制了跨种群比较。随着长读长测序成本的下降,构建更大的T2T基因组集合将变得更加可行,从而提高泛基因组的完整性。
泛基因组的可扩展性仍然是一个挑战,因为现有工具难以处理大型数据集,而像VCF(变异调用格式)这样为线性参考设计的格式通常不适用于基于图的表示。需要开发用于从泛基因组图导出变异记录的标准协议,以及能够处理群体规模变异而非基于参考变异的新格式。最终,泛基因组不是终点,而是探索群体水平遗传变异和解决特定生物学问题的动态工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号