紫花苜蓿超级泛基因组揭示同源四倍体适应性优势与进化约束的权衡机制

《Nature Communications》:Medicago super-pangenome reveals adaptive advantages and evolutionary constraints in autotetraploid alfalfa

【字体: 时间:2025年12月16日 来源:Nature Communications 15.7

编辑推荐:

  为解决多倍体植物适应性优势的遗传基础这一关键科学问题,研究人员通过对同源四倍体紫花苜蓿进行单倍型分相基因组组装并构建包含7个蒺藜苜蓿属物种的超级泛基因组,开展了“Medicago super-pangenome reveals adaptive advantages and evolutionary constraints in autotetraploid alfalfa”主题研究。结果发现四拷贝核心基因(tetra-copy core genes)在气候适应(1.60倍富集)和胁迫响应(1.61倍富集)中发挥关键作用,但 paradoxically 携带高遗传负荷(80.1%有害变异位于CDS区)。通过过表达代表性基因MsGDC验证了其提高生物量和氮利用效率的功能。该研究揭示了多倍体适应性与进化约束间的权衡机制,为多倍体遗传学和苜蓿育种提供了新框架。

  
在植物进化历程中,全基因组复制(Whole Genome Duplication, WGD)事件犹如一场基因组层面的“基因革命”,催生了众多多倍体物种。与它们的二倍体亲属相比,多倍体植物往往表现出更强的环境适应能力、更广的生态位分布以及更优的农艺性状,例如高产、抗逆等。然而,一个长期困扰科学界的谜团是:多倍体这种适应性优势背后的遗传机制究竟是什么?同时,多倍体又常被视为进化的“死胡同”,其长期进化命运为何如此矛盾?传统的研究多聚焦于异源多倍体(由不同物种杂交后基因组加倍形成),其适应性优势往往难以区分是源于杂交效应还是多倍体效应本身。因此,以同源多倍体(由同一物种内基因组加倍形成)为模型,有望更清晰地揭示WGD的独有贡献。紫花苜蓿(Medicago sativa subsp. sativa),作为重要的同源四倍体豆科牧草,与其二倍体祖先(M. sativa subsp. caerulea)相比,具有更广泛的分布和更强的适应性,是研究这一问题的理想材料。
尽管已有若干苜蓿属基因组发布,但缺乏高质量的单倍型分相(haplotype-resolved)同源四倍体基因组,阻碍了人们对WGD后等位基因拷贝数变异及其功能分化的深入理解。随着测序和组装技术的进步,构建高质量的泛基因组(pangenome)和单倍型分相基因组为在更宏大的进化尺度上剖析多倍体的适应性机制提供了前所未有的机遇。本研究旨在通过构建高质量的单倍型分相同源四倍体紫花苜蓿基因组和一个覆盖蒺藜苜蓿属多个物种的超级泛基因组,深入探索同源多倍体适应性优势的基因组基础及其面临的进化约束。
该研究发表于《Nature Communications》杂志。研究人员主要运用了PacBio和Nanopore长读长测序结合Hi-C(高通量染色体构象捕获)技术进行基因组从头组装,特别是采用了基于Hifiasm和Ragtag的单倍型分相组装策略,获得了高质量的四倍体苜蓿基因组ZM4_V2.0。利用OrthoFinder进行直系同源基因家族分析以构建超级泛基因组,并通过BLASTP比对(参数:e-value<1e-10, pident>95%)鉴定等位基因拷贝数变异。气候适应性关联分析采用潜在因子混合模型(LFMM)和群体分支统计(PBS)。基因表达分析基于大量公开及自产的RNA-seq数据,使用DESeq2进行差异表达基因(DEGs)鉴定。遗传负荷通过GERP++软件计算基因组约束位点(GERP score > 3视为有害变异)来评估。功能验证通过农杆菌介导的遗传转化在紫花苜蓿和蒺藜苜蓿(M. truncatula)中过表达候选基因MsGDC完成。样本队列包括中苜4号(ZM4)紫花苜蓿、二倍体祖先亚种caerulea(PI 464714)以及其他11个已发表的蒺藜苜蓿属基因组。
Genome assemblies and annotations of Medicago genomes
研究人员对同源四倍体紫花苜蓿品种中苜4号(Zhongmu-4, ZM4)和二倍体祖先亚种caerulea进行了高质量的基因组测序和组装。对于ZM4,结合PacBio HiFi长读长、Oxford Nanopore超长读长和Hi-C数据,通过改进的分相组装策略,最终获得了包含32条染色体、总大小为3.13 Gb的单倍型分相基因组ZM4_V2.0,其四个单倍型基因组大小分别为791.79 Mb (hap1), 751.53 Mb (hap2), 809.40 Mb (hap3) 和 775.96 Mb (hap4)。该基因组在连续性(contig N50=5.45 Mb)、完整性(BUSCO=99.5%)和碱基质量(Merqury QV=61.88)方面均表现优异,分相错误率低,为后续分析提供了可靠基础。基因注释预测出202,473个基因,功能注释比例达92.4%。二倍体caerulea的基因组组装大小为801.63 Mb,注释基因50,491个。此外,还对其他已发布的蒺藜苜蓿属基因组进行了重新注释,确保数据一致性。
Genome evolution and gene conservation revealed by Medicago super-pangenome
利用13个基因组(19个单倍型)构建了蒺藜苜蓿属的图状超级泛基因组Alfalfapan-V1.0,其大小(7.70 Gb)是ZM4_V2.0单倍型基因组的9.72倍。系统发育分析表明,所研究的蒺藜苜蓿属类群冠部年龄约为759万年,四倍体紫花苜蓿谱系从其二倍体祖先分化出来的时间约为213万年前。泛基因组分析共鉴定出69,767个直系同源基因家族,其中核心基因家族(存在于所有基因组)13,196个,软核心基因家族(存在于11-12个基因组)8,454个,非必需基因家族(存在于2-10个基因组)33,767个,私有基因家族(仅存在于一个基因组)14,350个。基因组大小与转座元件(TEs)含量高度相关,表明TEs扩张是基因组大小进化和分化的主要驱动力。结构变异(SVs)分析显示,紫花苜蓿-扁蓿豆复合体(M. sativa-falcata complex)具有最多的SVs,PCA分析能清晰区分不同物种,并在四倍体紫花苜蓿的不同单倍型间也检测到分化。
The retention of core genes correlated with climate adaptation of alfalfa
与二倍体祖先相比,四倍体紫花苜蓿占据了更广泛的气候区域和生态位。通过严格的同源性比对(蛋白相似度≥95%),在ZM4_V2.0的202,473个基因中,鉴定出109,715个非冗余基因。其中,仅有20.1%(22,012个)的基因在所有四个单倍型上均存在拷贝(即具有四个等位基因拷贝)。进一步将基因保守性(基于泛基因组)与等位基因拷贝数变异关联分析发现,具有四个等位基因拷贝的基因显著富集于核心基因中(占核心基因的53.3%,共11,735个),研究人员将其定义为“四拷贝核心基因”(tetra-copy core genes)。而仅有一个等位基因拷贝的基因则显著富集于非必需基因中(占非必需基因的41.7%,共20,562个),定义为“独特必需基因”(unique-essential genes)。选择性压力(Ka/Ks)分析显示,四拷贝核心基因的中位Ka/Ks值最低,表明其受到最强的纯化选择。研究人员建立了一个全基因组基因分类框架,将ZM4_V2.0中的所有基因划分为六组:独特必需基因(10.2%)、单拷贝基因(排除独特必需,14.2%)、双拷贝基因(18.4%)、三拷贝基因(17.9%)、四拷贝基因(排除四拷贝核心基因,17.7%)和四拷贝核心基因(21.5%)。气候适应性关联分析(LFMM和PBS)鉴定出2,429个与气候适应相关的基因,其中四拷贝核心基因贡献了836个(34.4%),相较于其基因组基线比例(21.5%)富集了1.60倍。对124个不同胁迫条件下的RNA-seq数据分析发现,在差异表达基因(DEGs)中,四拷贝核心基因的中位比例为34.6%,富集了1.61倍。表达水平分析表明,等位基因拷贝数越多的基因,其表达水平越高,四拷贝核心基因的中位表达水平最高。有趣的是,在每个非冗余基因的四个等位基因拷贝中,存在显著的阶梯式表达梯度,其中一个等位基因的表达量显著高于其他三个。在各类条件(正常、生物胁迫、非生物胁迫)下高表达基因(如前50%至前1%)中,四拷贝核心基因的比例均显著高于其基线比例,平均富集达1.80倍。这些结果共同表明,四拷贝核心基因在紫花苜蓿的气候适应和胁迫耐受中扮演了至关重要的角色。
Genetic burden of tetra-copy core genes and the long-term evolutionary fate of alfalfa
尽管四拷贝核心基因功能重要,但它们也积累了高遗传负荷。利用GERP++分析发现,紫花苜蓿基因组中约1.5%的位点受到进化约束(GERP score > 3)。有害变异数量随着等位基因拷贝数的增加而增加,四拷贝核心基因的平均有害变异数最高(198.89个),其中80.1%位于编码序列(CDS)区,意味着每1 kb CDS区域平均有164个有害变异。独特必需基因的有害变异分布模式则不同,其最高积累位于3'非翻译区(3'UTR)。四拷贝核心基因在染色体末端显著富集,这可能使得有害变异难以通过重组和选择被清除。在14,776个四拷贝核心非冗余基因中,有5,070个(34.3%)在所有四个单倍型上都携带了高于平均水平的害变异等位基因(共涉及16,414个基因)。这些基因富集于胁迫响应、生殖发育和蛋白质泛素化等关键功能。群体水平分析显示,同源四倍体紫花苜蓿比其二倍体祖先积累了约1.5倍的有害变异,这种差异在四拷贝核心基因中尤为明显。这表明WGD掩盖了有害变异,并增加了遗传负荷,尤其体现在关键的核心基因上。
Overexpressed tetra-copy core gene increased adaptability in alfalfa
为验证四拷贝核心基因的功能,研究人员选择了甘氨酸脱羧酶基因(MsGDC)进行功能验证。该基因存在于所有七个蒺藜苜蓿属类群中,在ZM4_V2.0中有四个等位基因拷贝,且属于在所有四个单倍型上均携带高有害变异的5,070个非冗余基因之一。表达分析显示,仅有一个MsGDC等位基因拷贝(Msa125466)在不同品种或品系中均呈现高表达,并对升高的CO2浓度有显著响应。研究人员构建了过表达MsGDC的转基因紫花苜蓿和蒺藜苜蓿株系。结果表明,使用ST-LS1启动子(GS系)驱动MsGDC过表达能显著增加紫花苜蓿的生物量。在蒺藜苜蓿中,GS系在正常营养条件下生物量高于野生型(WT),在无氮胁迫下,GS系保持良好的存活率,而WT生长不良、存活率低,且GS系的叶绿素含量显著高于WT,表明MsGDC过表达能增强氮胁迫耐受性和氮利用效率。对MsGDC四个等位基因拷贝的分析证实,它们均在CDS区携带高密度的有害变异。这一案例证明,尽管四拷贝核心基因携带高遗传负荷,但其功能至关重要,通过增强其表达可以显著提高作物的适应性和产量潜力。
本研究通过构建高质量的单倍型分相同源四倍体紫花苜蓿基因组和蒺藜苜蓿属超级泛基因组,揭示了“四拷贝核心基因”在同源多倍体适应性中的核心作用及其所面临的遗传负荷约束。研究结果表明,WGD后核心基因的保留是非随机的,四拷贝核心基因在气候适应和胁迫响应中发挥关键作用,其高表达和特定的等位基因表达模式(一个主导表达,其余可能参与调控)是实现适应性优势的重要机制。然而,这些关键基因也 paradoxically 积累了高密度的有害变异,构成了长期的进化约束,这为多倍体“进化死胡同”假说提供了有力的基因组证据。研究揭示的适应优势与遗传负荷之间的权衡机制,深化了我们对多倍体进化动态的理解。在应用层面,该研究为多倍体作物(如苜蓿、马铃薯等)的遗传改良提供了新思路:一方面可以靶向优化四拷贝核心基因的表达(如利用特定启动子过表达关键等位基因)以提升产量和抗逆性;另一方面,在育种程序中需要关注和管理这些基因中的有害变异,例如通过设计育种(Breeding by Design)策略创制具有最小有害变异库的二倍体材料,再通过染色体加倍获得优良四倍体,从而打破遗传负荷的束缚,培育出更具适应性和生产力的新品种。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号