散在重复序列与反向重复扩张驱动朱缨花(豆科:含羞草族)质体基因组发生重大重排

【字体: 时间:2025年10月06日 来源:Frontiers in Plant Science 4.8

编辑推荐:

  本研究整合PacBio长读长测序数据,揭示了朱缨花(Calliandra haematocephala)质体基因组(plastome)存在大规模结构重排与反向重复区(IR)约14 kb的扩张,使其成为豆科迄今记录的最大质体基因组(200,623 bp)。研究还鉴定出高丰度的散在重复序列(>90 bp)、高变区(如accD、clpP)及正选择基因(如clpP、ycf2),为理解含羞草族质体基因组的结构多样性与适应性进化提供了新见解。

  
引言
质体基因组(plastome)在自养植物中通常呈现保守的四分体结构:两个反向重复区(IR)分隔一个大单拷贝区(LSC)和一个小单拷贝区(SSC)。质体基因组的大小通常介于120至160 kb之间,但经常受到IR扩张/收缩或丢失的影响。广泛的IR扩张发生在多个类群中,例如天竺葵属(Pelargonium),其IR超过87 kb,导致质体基因组大于242 kb。IR收缩也很常见,例如某些豆科植物以及非自养植物。豆科植物中存在着显著的质体基因组结构变异,尤其是在蝶形花亚科中。含羞草亚科被重新定义为含羞草族( Caesalpinioideae亚科),包括约100属3500种,分布在泛热带地区。该族植物的质体基因组结构相对保守,但由印加族和金合欢属构成的一个支系显示出约13 kb的IR扩张至SSC区域,代表了已知最大的豆科质体基因组(174,217至178,887 bp),该支系被命名为反向重复扩张支系(IREC)。本研究以观赏物种朱缨花(Calliandra haematocephala)为对象,对其质体基因组进行了深入研究。
材料与方法
研究整合了来自GenBank的15个已组装质体基因组和一个新测序的质体基因组(朱缨花),代表了含羞草族的16个主要支系或等级。朱缨花的新鲜叶片样本采集自中国科学院西双版纳热带植物园,随后送至北京贝瑞和康生物技术有限公司进行总DNA提取。使用BluePippin进行目标富集片段选择,并按照PacBio标准流程制备文库,最终在PacBio Sequel II平台上进行全长测序。
使用Oatk v1.0和TIPPo v2.3从原始测序数据中组装朱缨花的完整质体基因组,并通过交叉验证确保准确性。所有17个质体基因组(包括外群)均使用PGA进行注释,最后使用Geneious v.9.0.2进行手动调整。使用在线工具OGRAW生成物理图谱,并使用Geneious中的progressiveMauve插件分析基因组共线性。
从17个含羞草族质体基因组中提取80个蛋白质编码基因(PCGs),使用MAFFT v7.487进行比对,并连接成一个数据矩阵。同时,使用MAFFT和PhyloSuite v1.2.2构建了整个质体基因组的比对(称为Full-Con)。使用RAxML v8.2.12在GTRGAMMA模型下对两个矩阵进行最大似然(ML)树推断,并进行1000次快速自举重复。
为了表征含羞草族16个质体基因组(不包括外群)中的IR扩张/收缩,使用IRscope可视化和比较了IR/SC的边界。使用mVISTA在shuffle-LAGAN模型下对整个质体基因组进行比对和可视化。使用MAFFT比对63个PCGs和86个长度超过200 bp的非编码区域(包括内含子或基因间间隔区);随后使用DnaSP v. 6.10通过滑动窗口分析计算核苷酸多样性(Pi),窗口长度为600 bp,步长为200 bp。
使用在线软件MISA识别简单序列重复(SSRs),单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小阈值分别设置为10、5、4、3、3、3。使用REPuter检测长重复序列(正向、回文、反向和互补重复),参数设置如下:最小重复长度=30,汉明距离=3,最小一致性=90%,最大计算重复数=150。
使用MAFFT插件在“密码子”模式下生成PCGs的比对,随后使用PhyloSuite v1.2.2中的“转换序列格式”工具转换为PML格式。使用MAFFT v7.487默认参数对所有16个含羞草族物种的序列进行比对。分别使用RAxML v8.2.12在GTRGAMMA替代模型和1000次快速自举重复下推断这些PCGs比对的ML树。
使用PAML v4.10.7中的CodeML计算非同义/同义速率比(dN/dS),以ML树和PML格式的比对文件作为输入。采用分支模型分析来评估选择压力。通过似然比检验(LRT)比较单比率和双比率模型,以识别PCGs中跨分支的选择压力变化。按照PAML手册中的描述,在分支模型(runmode = 0, model = 0 或 2, NSsites = 0)下运行CodeML。
结果
质体基因组大小与特征
新测序的朱缨花质体基因组以及从GenBank重新注释的15个含羞草族质体基因组均呈现环状、四分体结构。总长度范围从159,963到200,623 bp,LSC区域范围从87,462到110,424 bp,SSC区域范围从4,470到19,392 bp,IR区域范围从25,341到42,069 bp。这些质体基因组的总GC含量范围从35.0%到36.6%。朱缨花的质体基因组大小为200,623 bp,LSC长度为110,424 bp,SSC长度为6,061 bp,单个IR长度为42,069 bp。
16个含羞草族质体基因组显示出相对较高的基因含量和共线性。15个质体基因组保持几乎相同的基因排列,而朱缨花的质体基因组显示出显著的结构变异。注释显示,这15个质体基因组包含128至142个基因,包括83至95个蛋白质编码基因、37个tRNA基因和8个rRNA基因。相比之下,朱缨花包含137个基因,包括90个蛋白质编码基因(15个在IR区域)、39个tRNA基因(6个在IR区域)和8个rRNA基因(4个在IR区域)。
榼藤(Entada phaseoloides)的重排距离为1,对应于涉及四个连续块的一次倒位事件。印加树(Inga leiocalycina)的重排距离为1,与两个连续块的一次倒位有关。朱缨花的重排距离为12,反映了涉及多次易位和倒位的广泛基因组重排。
IR在16个含羞草族质体基因组中的扩张与收缩
在分析的16个含羞草族质体基因组中,只有四个物种的质体基因组显示没有显著扩张或收缩的典型IR,IR长度范围从25,931 bp(Prosopis cineraria)到26,062 bp(Stryphnodendron adstringens)。九个物种显示出约13–16 kb的IR显著扩张至SSC区域,导致IR长度范围从39,347 bp(Vachellia nilotica subsp. indica)到42,069 bp(朱缨花)。
除了朱缨花的IRB/SSC连接处(JSB)位于ndhD内,仅重复八个完整的蛋白质编码基因(从ycf1到psaC)外,其余八个物种的IR包含九个完整的蛋白质编码基因(从ycf1到ndhD)。在台湾相思(Acacia confusa)、合欢(Albizia julibrissin)、Faidherbia albida、Pithecellobium dulce、雨树(Samanea saman)和儿茶(Senegalia catechu)中,JSB转移到ndhF内,重复其3'端(19–205 bp),而SSC/IRA连接处(JSA)从ycf1重新定位到ccsA和ndhD之间(除了F. albida的JSA位于ccsA的终止密码子内)。
在朱缨花中,JSB转移到ndhD内,重复其5'端(538 bp),JSA从ycf1重新定位到ndhF和psaC之间。在印加树中,JSB发生在ndhD和ccsA之间,而JSA转移到ndhF内,重复其3'端(6 bp)。在V. nilotica subsp. indica中,JSB重新定位到ndhD和ndhF之间,JSA转移到ccsA和ndhD之间。
四个物种(合欢、F. albida、印加树和雨树)显示出LSC/IRB连接处(JLB)位于rps19内,重复其5'端(100–105 bp)。朱缨花显示出额外的0.7 kb IR扩张至LSC,将其JLB转移到rps3内,并包含了整个rps19和31 bp的rps3。在P. dulce中,1.7 kb的IR扩张至LSC将JLB定位在rps3和rpl16之间,将rps3和rps19添加到IR中。儿茶和V. nilotica subsp. indica显示出1.2 kb的IR扩张至LSC,将JLB重新定位到rps19和rpl23之间,并包含了rps19。相反,台湾相思显示出0.3 kb的IR收缩,将其JLB转移到rpl2内,并将整个rpl2(4 bp)转移到LSC。
三个物种(榼藤、含羞草(Mimosa pudica)和Xylia xylocarpa)显示出IR收缩,IR长度范围从25,341 bp(榼藤)到26,370 bp(X. xylocarpa),在SSC中保留了完整的ndhF。榼藤、含羞草和X. xylocarpa的JSB转移到trnN和ndhF之间,而JSA保持在ycf1内(榼藤和X. xylocarpa)或重新定位到ycf1和trnN之间(含羞草)。榼藤和含羞草的JLB发生在rps19内,重复其5'端(分别为104 bp和103 bp)。Xylia xylocarpa显示出0.2 kb的IR扩张至LSC,将其JLB定位在rpl22和rps19之间,并将整个rps19纳入IR。
分歧热点区域的识别
对16个含羞草族质体基因组的比较分析显示,单拷贝区域的序列变异性高于IR区域,非编码区域的序列变异性高于编码区域。核苷酸多样性(Pi)分析确定了几个高变区域(Pi > 0.03):accD、rps18、rpl20、clpP、rps11和rps3(位于LSC),以及ccsA和ycf1(位于SSC)。在非编码区域中,rps8-rpl14、trnS(GCU)-trnG(UCC)、clpP_intron1和rpl36-rps8(位于LSC),以及trnN(GUU)-ndhF和ycf1-trnN(GUU)(位于SSC)显示出更高的核苷酸多样性(Pi > 0.09)。大多数其他非编码区域的Pi值在0.03到0.09之间。
重复序列分析
在16个含羞草族质体基因组中共鉴定出2314个SSRs,范围从X. xylocarpa的85个到合欢的200个。这些SSRs的大部分(约70%)位于非编码区域。在六种SSR类型中,单核苷酸所占比例最大,其次是二核苷酸和四核苷酸。三核苷酸出现频率较低,而五核苷酸和六核苷酸仅出现在一部分质体基因组中。
此外,还鉴定出1290个长重复序列,包括697个正向、196个反向、340个回文和57个互补重复。每个质体基因组的长重复序列数量差异很大,从榼藤的30个到P. dulce、银合欢(Leucaena leucocephala)和印加树的150个。尽管存在种间差异,但重复类型和长度类别的分布模式在物种间基本保守,大多数重复发生在非编码区域。30–45 bp的重复占主导地位,其次是45–60 bp、> 90 bp、60–75 bp和75–90 bp。
值得注意的是,朱缨花显示出一种特殊的模式,共鉴定出48个长重复序列。其中包括25个回文重复和23个正向重复,而未检测到反向或互补重复。这些重复的长度范围从228到1610 bp,均超过90 bp。
密码子使用分析
16个含羞草族质体基因组的蛋白质编码区域包含22,226至22,697个密码子。AUU(编码异亮氨酸)是最常见的密码子(980–1026次出现)。UUA显示出最高的平均相对同义密码子使用度(RSCU)值(平均值=1.93)。30个密码子显示出RSCU > 1,其中29个以A/U结尾。两个密码子,AUG(甲硫氨酸)和UGG(色氨酸),在所有16个物种中的RSCU值均为1,表明没有密码子偏好性。
系统发育推断
从PCGs和CP矩阵重建的系统发育树显示出一致的拓扑结构,且具有较高的节点支持率(自举支持率BS > 90%)。基于整个质体基因组比对重建的ML树显示出更高的整体支持率,并且其拓扑结构与之前的研究基本一致,该树用于后续的选择压力分析。
选择压力分析
16个含羞草族质体基因组中76个PCGs的dN/dS比率范围从0.0001到2.04416。三个基因clpP、ycf2和rps17显示出dN/dS > 1,表明存在正选择,而psaJ和psbI的dN/dS比率接近0(0.0001)。
分支模型分析评估了前景分支和背景分支之间的差异选择。比较M0(单比率)和M2(双比率)模型的似然比检验支持大多数PCGs的M0模型。在排除异常的dN/dS比率(比率=999)后,12个基因(rpoC1、atpA、rpoB、rpoC2、rps11、rps12、atpB、clpP、rps18、rpoA、petB和rpl14)在朱缨花支系中更符合M2模型。具体来说,rpoC1、atpA、rpoB、rps11、rps12、rps18和rpl14经历了正选择;rpoC2、rpoA和petB显示出 relaxed purifying selection;atpB经历了 intensified purifying selection。
讨论
选择分析表明潜在的适应性进化
在clpP、ycf2和rps17中检测到正选择(dN/dS > 1)。clpP基因编码ClpP蛋白酶,负责维持细胞器蛋白质稳态并介导环境应激反应,如高温、干旱和盐胁迫。鉴于含羞草族大多数物种表现出耐旱特性,在clpP中观察到的正选择可能与其增强的干旱条件适应性有关。ycf2编码的蛋白质定位于叶绿体膜,参与膜组装和稳态。ycf2基因的正选择间接表明含羞草族具有更稳定的叶绿体结构,从而适应更复杂的环境。含羞草族物种分布范围广泛,这些正选择基因可能参与了含羞草族独特的环境适应。
当将朱缨花支系指定为前景分支时,在rpoC1、atpA、rpoB、rps11、rps12、rps18和rpl14中检测到正选择。功能上,rpoC1编码植物叶绿体RNA聚合酶的β亚基,是叶绿体基因转录机制的核心组成部分,调节叶绿体基因的转录。rps11、rps12、rps18和rpl14在蛋白质合成中发挥作用,atpA在光合作用中发挥作用,rpoB编码质体编码的RNA聚合酶(PEP)的β亚基。同时,atpB(参与光合作用)表现出 intensified purifying selection,而rpoC2、rpoA(转录)和petB(光合作用)显示出 relaxed purifying selection。atpB在光磷酸化和能量稳态中的主要作用将其与非生物胁迫响应联系起来。这些选择的基因主要与叶绿体功能(包括光合作用)相关,可能通过调节光合效率来增强植物的环境适应性。这些基因可能经历了独特的进化历史。此外,研究发现非编码区域的核苷酸多样性高于编码区域,这与大多数先前的研究一致。这些鉴定出的高变区域(编码和非编码)可以补充先前的研究,并作为含羞草族或其他植物类群系统发育、群体遗传和条形码研究的宝贵标记。
显著的结构变异表明含羞草族质体基因组具有高度多样性
朱缨花的质体基因组显示出显著的结构特征,突出了含羞草族内的质体基因组多样性。最值得注意的是,它显示出显著的质体基因组扩张和广泛的结构重排,这与反向重复(IR)区域向大单拷贝(LSC)区域约14 kb的扩张密切相关。这种IR扩张导致异常大的IR(42,069 bp),使得总质体基因组大小达到200,623 bp——这是迄今在含羞草族乃至豆科中报道的最大质体基因组。
该质体基因组的一个显著特征是存在高丰度的成簇散在重复序列,长度范围从228到1610 bp。这些重复序列可能作为结构热点,促进复制、倒位和额外重复元件的积累。基于Geneious的可视化显示,这些重复序列是非随机分布的,并且通常是成簇的,可能通过分子内重组介导大规模重排。
朱缨花质体基因组的组装仅使用短读长测序具有挑战性,由于未解决的长重复序列,导致产生短的23 kb重叠群或碎片化的重叠群。相比之下,PacBio HiFi长读长能够使用Oatk和TIPPo等工具完成完整的环状组装,证实了长读长测序对于具有复杂重复结构的质体基因组的准确性和必要性。建议对无法仅使用短读长测序环化的质体基因组采用此方法。
共线性分析揭示了朱缨花中存在广泛的质体基因组重排。尽管蝶形花亚科IRLC中IR的丢失被推断与结构重排有关,但一些缺乏IR的物种(如紫花苜蓿和紫藤)表现出有限的结构变异。相反,在多个保留IR的谱系中观察到了显著的重排,包括桔梗科、木犀科、车前科和天竺葵属。对牻牛儿苗属的研究进一步证实,质体基因组的稳定性与IR的存在缺乏直接相关性。在保留IR的朱缨花中观察到的广泛重排与这些发现一致。
在含羞草亚科中,研究揭示了由印加族和金合欢属s.s.组成的支系中存在约13 kb的IR扩张至SSC区域。值得注意的是,朱缨花显示出额外的0.7 kb IR扩张至LSC,将JLB边界转移到rps3内。这种IR扩张导致其异常大的质体基因组,并进一步阐明了含羞草族中的IR动态。在系统发育上,朱缨花属于朱缨花支系,与儿茶等级和Zapoteca支系不同。需要对朱缨花质体基因组进行更广泛的采样,以评估IR扩张是否是该谱系的特征。
与GenBank中先前报道的豆科质体基因组大小(如Faidherbia albida的175,675 bp)相比,以及最近组装的235个质体基因组(其中最大的环化质体基因组是Pseudosamanea guachapele的182,795 bp),朱缨花的组装(200,623 bp)现在代表了豆科中报道的最大质体基因组。已知升高的散在重复序列丰度会驱动质体基因组重排,并且可能是朱缨花广泛结构变异的基础。与其他含羞草族物种一样,朱缨花中主要的散在重复序列是回文和正向重复。类似地,在天竺葵科中,天竺葵的质体基因组变异涉及至少12次倒位。进一步研究表明,倒位是11种天竺葵科植物质体基因组变异的主要驱动因素,大插入与结构变异正相关,重复序列的分布与断点密切相关。先前的研究表明,Putranjivoids支系(金虎尾目)中的质体基因组重排与重复序列的丰度相关。
质体基因组结构变化的分子机制包括重复介导的同源重组、链滑错配和偶尔的外源DNA整合。 several studies have proposed that dispersed repeats, particularly long forward repeats, are key mediators of inversions and rearrangements. 例如,研究表明,散在重复序列的数量和长度都与重排频率和幅度呈正相关。在朱缨花中,所有正向重复都超过90 bp,表明它们在重组介导的质体基因组重塑中活跃发挥作用。IR动态也被认为是质体基因组结构进化的主要驱动因素。通过重组或基因转换引起的IR边界转移可能导致扩张、收缩甚至基因复制。烟草中一个记录充分的案例涉及由双链断裂和重组事件触发的>12 kb IR扩张。在烟草中,实验性移除IR区域导致基因剂量改变和质体基因组拷贝数增加,强调了IR在质体基因组结构和调控中的作用。
在朱缨花中,14 kb的IR扩张可能与IR连接处附近基因的插入、缺失或复制有关。这些变化,结合丰富的散在重复序列,很可能导致了在该物种中观察到的广泛质体基因组重排。值得注意的是,这些发现支持了一个日益增长的共识,即质体基因组的大小和结构是由重复内容与IR边界动态之间的相互作用决定的,而不是单独由IR的存在或缺失决定。
结论
朱缨花的质体基因组在结构和大小上都非常显著。研究发现它拥有含羞草族乃至豆科迄今报道的最大质体基因组。大小的巨大增加和大量的重排与一系列主要的IR扩张以及易位和倒位有关。此外,丰富的成簇散在重复序列也被确定为导致广泛质体基因组重排和质体基因组大小增加的关键因素。选择压力分析在clpP、ycf2和rps17中鉴定出正选择,表明它们在适应性进化中的潜在作用。在朱缨花支系内的基因(如rpoC1和atpA)中也检测到分支特异性正选择,表明存在谱系特异性的适应压力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号