综述:植物泛基因组与泛表观基因组中转座子的自然历史

《Current Opinion in Plant Biology》:The natural history of transposons in plant pangenomes and panepigenomes

【字体: 时间:2025年10月28日 来源:Current Opinion in Plant Biology 7.5

编辑推荐:

  这篇综述系统梳理了植物转座子研究的最新进展,重点介绍了长读长测序技术如何推动泛基因组(pangenome)和泛表观基因组(panepigenome)研究,揭示了转座子(TE)的多样性、表观遗传调控(如DNA甲基化、H3K27me3)、基因组生态位适应及其编码的附属蛋白(如VANC)在克服宿主沉默中的新机制,为理解转座子与宿主基因组的协同进化提供了新视角。

  
引言
转座子是能够在基因组内移动和自我繁殖的普遍DNA序列。在植物中,转座子对基因组结构产生了深远影响,其丰度在不同物种间差异巨大。例如,转座元件(TE)含量从Utricularia gibba 82兆碱基基因组的约3%到玉米约2.5千兆碱基基因组的超过88%不等。该领域的主要问题包括种群力量(如突变、选择、漂变和重组)以及水平TE转移、体细胞和种系流动性如何塑造植物基因组中转座子的显著多样性。转座子根据其动员机制分为两大类:I类反转录转座子通过RNA中间体和“复制-粘贴”机制移动,而II类DNA转座子使用由“剪切-粘贴”转座酶催化的DNA中间体。此外,植物含有丰富的Helitrons,它们通过Rep/Hel蛋白使用“剥离-粘贴”滚环转座。不同TE类别在不同真核生物和植物物种中占主导地位的比例存在显著变异。不同转座子谱系成功程度的变异可能反映了转座子增殖、消除和基因组监视机制的差异,这些机制在不同系统发育类群中运作不同。
转座子可分为自主元件(编码动员所需的所有机制)和缺乏足够编码潜力以自我转座的元件。有趣的是,植物非自主转座子通常比其自主对应物具有更高的拷贝数,表明其流动性更强或消除率更低。例如,对超过3000个水稻基因组的重测序显示,几乎所有种质中都存在微型反向重复转座元件mPing插入(每个基因组约1-200个拷贝),而只有6.6%的种质携带自主Ping元件(每个基因组约四个拷贝)。这些关系被认为代表了超寄生现象,即非自主元件利用自主伙伴的活动在基因组中增殖。
基因组中的大象:转座子注释的新方法
准确和全面的转座子注释仍然是一个重大挑战。然而,长读长测序平台如Pacific Biosystems HiFi和Oxford Nanopore Technologies(ONT)现在提供了解决全长转座子及其嵌套结构所需的读长和准确性。组装算法包括Verkko和hifiasm可以接受HiFi和ONT数据,并产生高度连续的基因组,从而更好地揭示TE结构。已建立的重复序列注释方法(例如RepeatMasker、EDTA、Earl Grey、REPET和DANTE-LTR)使用结构特征(如边界重复)或使用转座子序列库进行种子扩展同源性搜索。为了进行更精细的分类,TEsorter等工具可以查询注释与REXdb数据库,并将转座子分配给特定的谱系。尽管鉴定出大量TE序列,但它们对植物基因组的总贡献可能仍然被低估。例如,当前方法可能无法检测到不常见的元件,例如最近通过水平转移入侵的元件或已适应以低拷贝数存在的元件。
一套新工具(例如Pantera、GraffiTE、Pannagram)应用了这样的原理:活性移动DNA在泛基因组图中将显示为“气泡”,表明存在-缺失遗传多态性。由于这些方法不依赖于转座子序列同源性,它们能有效识别可能被传统工具遗漏的新家族。例如,Pannagram在拟南芥黄瓜基因组中鉴定出几十个以前未知的转座子家族。基因组大语言模型正在开发中,这些模型在注释蛋白质编码基因方面取得了成功(例如Evo 2和AgroNT),并且机器学习方法已被用于注释植物LTR转座子(例如Inpactor2)。将大语言模型与泛基因组方法结合使用有望彻底改变转座子序列多样性和进化的研究。
经典注释工具的另一个盲点是检测古老或高度退化的转座子序列。随着时间的推移,非活性拷贝会积累突变并失去编码能力,尽管它们可能作为调控元件被共同适应。基于k-mer的算法(例如Duster)能够检测短的和退化的转座子序列基序,可有效回收这些古老元件。在拟南芥中,此类方法估计至少一半的基因组源自TE相关序列。这些序列通常较短,靠近启动子,并富含转录因子位点,这强化了转座子已深度且功能性地整合到植物基因组中的观点。
人们越来越关注直接探索体内的转座活性。已经开发了几种工具来从短读长测序数据中检测转座子插入,揭示了自然插入多态性、表观遗传变异和活性转座子家族。类似的方法已将转座子插入多态性(TIPs)整合到全基因组关联研究中,从而发现了由转座子诱导突变支持的农艺和适应性性状。它们的动员也可以通过扰动表观遗传沉默或通过转基因方法诱导异位转座子表达来实验研究。这些策略可以产生高分辨率的转座图谱。例如,靶向富集技术(如序列捕获)可以集中测序能力于移动元件上。最近,将转座子展示与高通量测序相结合的方法(TEd-seq)捕获了de novo插入。转座子活性也通过病毒样颗粒测序和染色体外环状DNA(eccDNA)测序进行了分析,这些方法检测转座子生命周期中的中间分子。直接的长读长DNA测序可以解决复杂的插入和重排,从而能够在met1 DNA甲基化突变体中识别广泛的体细胞转座,包括观察连接不同转座子的转座中间体的异常解析。总之,我们现在拥有一个强大而多功能的工具包,以前所未有的分辨率研究转座动态和景观。
转座子表观泛基因组
真核生物中多种沉默机制的进化,包括DNA甲基化、组蛋白修饰和RNA干扰(RNAi)等,意味着大多数转座子的表达受到抑制。例如,在野生型植物中,转座子在所有胞嘧啶背景下都密集地DNA甲基化,并且RNA聚合酶II转录被沉默。此外,转座子是冗余RNAi途径的主要靶标,这些途径产生21、22和24核苷酸siRNA。这些siRNA通过转录后RNA沉默和通过RNA指导的DNA甲基化对同源基因组序列进行转录沉默来抑制转座子活性。例如,拟南芥中转录(ddm1)和RNAi(rdr6)沉默途径的双突变体显示出比任一单突变体更强的转座子表达,尽管rdr6对于启动拟南芥EVADE copia LTR元件的沉默是可有可无的。
除了DNA甲基化,多种染色质标记区分了植物基因组中的基因和转座子。基因通常富含H3K4me3、H2A.Z和H3K36me3,而转座子更常与H2A.W、H3K9me2和H3K27me1相关。然而,基因和TE相关染色质特征之间的严格二分法日益受到挑战。组蛋白修饰H3K27me3由多梳抑制复合物(PRC)催化,曾被认为是基因独有的。最近的研究在硅藻、红藻和苔藓植物中发现了广泛的H3K27me3介导的转座子抑制,在被子植物中程度较轻,表明基于PRC的转座子沉默可能代表了一种祖先机制。此外,在拟南芥中的工作揭示,H3K27me3可以积累在携带已知招募PRC的顺式调控基序的新插入转座子上,并且一些转座子根据种质在DNA甲基化和H3K27me3标记之间切换。这些发现突显了控制基因和转座子之间表观遗传区分的规则比以前认为的更具动态性,并且仍未完全理解。
长读长测序正越来越多地被用来精确分析单个转座子位点的表观遗传信息。例如,ONT和HiFi长读长测序可以在单个转座子内精确绘制DNA胞嘧啶甲基化。由于甲基腺嘌呤在真核生物基因组中基本不存在,将细菌腺嘌呤甲基转移酶(例如EcoGII或Hia5)添加到染色质中,然后进行ONT测序(fiber-seq)可以提供可及性图谱,或者Hia5可以与抗体结合(DiMeLo-seq)。这些强大的方法同时提供了甲基腺嘌呤勾勒的可及性和内源性甲基胞嘧啶的单分子图谱,有潜力揭示转座子染色质的新见解。基因组接触图谱方法如Hi-C也可以与ONT或HiFi测序结合,称为Pore-C和CiFi,为转座子序列提供更长的片段和多向接触信息。长读长还显著提高了将转录本数据(从直接RNA或cDNA)映射到单个转座子的准确性,以及识别嵌合基因-TE转录本。
虽然大多数转座子在大多数时间是转录抑制的,但有大量证据表明沉默在特定细胞类型中或响应环境条件而释放。在玉米和番茄中,新的分析方法发现了在常染色质区域内表观遗传活跃的拷贝,这些拷贝可以对邻近基因施加顺式调控效应。此外,在拟南芥中化学诱导应激敏感的反转录转座子ONSEN在母本表达基因附近产生了de novo插入,导致胚乳中持续的DNA低甲基化和广泛的印记破坏。总之,这些发现挑战了转座子均匀沉默的观点,并揭示了个别转座子拷贝可以具有独特的调控行为。长读长和单分子表观基因组技术以及单细胞方法的出现有望在发育和环境变化期间提供对转座子活性调控的新见解。
转座子基因组生态位
真核生物基因组高度结构化,具有不同的染色质状态、序列组成、DNA复制时间以及分子内和分子间接触。植物染色体通常组织成细胞遗传学上不同的常染色质和异染色质,这与相对较低和较高的转座子丰度相关,尽管不同的转座子家族优先积累在不同的基因组生态位中。插入常染色质的潜在优势是转座子可能有更高的RNA聚合酶II表达机会,尽管元件有破坏必需基因的风险。例如,Helitrons和DNA-TIR家族被发现富含在蛋白质编码基因的启动子和基因间区域。在玉米中,基因启动子中的Mutator插入可以通过活性转座酶的存在和面向外启动子的激活来抑制,这可能反映了与基因邻近共存的策略。拟南芥中的EVADE Copia LTR元件利用基因相关的组蛋白变体H2A.Z优先整合在环境响应基因内,并远离必需的家务基因。
与基因丰富区域不同,异染色质以复杂的不同转座子序列巢为特征,尽管孤立的蛋白质编码基因也可以嵌入这些区域。这些区域中转座子的积累可能是由于优先整合到异染色质中,或者因为这些区域由于蛋白质编码基因密度较低而免受纯化选择的影响。然而,由于着丝粒周围异染色质在染色体凝聚和着丝粒功能中可能发挥重要作用,这些区域也可能在基因组稳定性中发挥功能性作用,这可能被正向选择。
着丝粒本身是一个被特定的亲着丝粒转座子家族靶向的生态位。许多植物的着丝粒由兆碱基卫星重复阵列组成。在十字花科中,这些阵列可以被Athila LTR反转录转座子入侵。有趣的是,来自A. lyrata的亲着丝粒Copia-LTR Tal1元件与EVADE密切相关;当在A. thaliana中激活时,Tal1靶向着丝粒卫星阵列,而EVADE则显示出对基因的相反偏好,这由整合酶C末端的序列控制。据推测,Tal1整合酶C末端识别着丝粒染色质标记,例如CENH3或动粒蛋白,以指导着丝粒整合。在小麦科中,CRM Gypsy-LTR CerebaQuinta反转录元件主导着丝粒,它们的LTR是CENH3加载的位点,表明转座子是这些物种中的功能性着丝粒序列。由于CerebaQuinta转座子具有整合酶-染色质结构域融合,推测这些结构域在整合过程中识别着丝粒染色质,尽管可能通过独立于AthilaTal1的机制进化而来。因此,转座子沿染色体的偏向分布可能是靶向整合、选择效应和重组共同作用的结果。
核心和附属转座子编码蛋白
真核生物转座子起源于早期进化,可能是在10-20亿年前,并编码相对有限的催化转座的核心酶。这些包括高度保守的核酸内切酶、重组酶、逆转录酶、整合酶和蛋白质引物聚合酶。这些核心转座子酶蛋白长期以来一直是基因组数据中识别自主转座子序列的主要标志。除了保守的转座机制外,转座子通常携带多样化的附属蛋白结构域,这些结构域在不同家族和谱系间各不相同。这些附属因子对于转座子传播可能至关重要;例如,通过指导整合特异性或抵消宿主沉默途径。转座子附属因子的显著例子是VANC蛋白,由VANDAL DNA转座子编码。VANC蛋白通过特异性靶向同源转座子序列来抑制宿主沉默,清晰地说明了转座子与其宿主之间的进化军备竞赛。与病毒沉默抑制子(如p19)广泛中和宿主防御siRNA反应不同,VANC诱导的抗沉默显示出高度的序列特异性,有可能对细胞产生较小的附带影响。VANC蛋白通过获得和失去结构域以及修改其DNA结合特异性而广泛多样化。然而,VANC多样化的机制、这些蛋白质如何进化特异性以及它们参与哪些分子途径来克服宿主抑制仍然知之甚少。其他家族中也报道了让人想起VANC的转座子编码抗沉默反应,包括抑制子-突变子(Spm)编码的蛋白TnpA,它结合同源Spm元件并与DNA低甲基化相关。MuDR是另一个玉米转座子家族,也描述了类似的行为,其中MURA转座酶与Mu元件末端反向重复序列的低甲基化相关。
这些发现提出了TE编码的抗沉默系统在植物基因组中可能比以前认识的更广泛的可能性。例如,在拟南芥中,几个Spm相关家族表现出反式作用低甲基化的证据,包括高度活跃的Spm3元件。此外,探索其他附属转座子ORF(例如存在于AthilaSIRE LTR反转录元件中的ORF)是否在调节其生命周期中发挥作用将会很有趣。我们注意到,大多数预测的转座子蛋白仍未表征,并且探测其功能、表型影响和进化保守性的实验框架仍然缺乏。在番茄、水稻、玉米和苔藓小立碗藓等多种植物模型中,表观遗传突变体的日益可用性为系统地研究TE编码的抗沉默系统在陆地植物中的出现和进化保守性提供了新的机会。
基因组中转座子的冲突与合作
转座子在塑造基因组结构和功能中的作用,以及不同层次的选择在多大程度上影响其进化,目前尚不清楚。与任何突变一样,转座子插入可以对宿主适应性产生正面或负面影响。对超过1000个拟南芥种质中转座子流动性的分析揭示了具有复杂地理模式的de novo插入。尽管许多基因中的插入是有害的,但一些插入显示出正向选择的清晰足迹,包括FLOWERING LOCUS-C中的转座子插入等位基因,这些等位基因介导应激诱导的开花反应。除了插入诱变,转座子还可以通过在基因内或附近招募特定的染色质状态,或通过贡献顺式调控元件来影响基因表达,支持其在基因调控网络重组中的重要作用。
理解对转座子的选择是具有挑战性的,因为它们在植物物种内部和之间的动态完整图谱最近才开始出现。我们仍然缺乏描述在中性预期下转座子出生和死亡动态的详细模型,这些模型需要由新兴的完整泛基因组信息来充实。实际上,对转座子选择的考虑主要集中在对宿主生物生存的正面和负面影响上。然而,考虑转座子本身在基因组环境中的选择也很重要,这包括它们增殖的能力、靶向基因组生态位、抵消沉默以及承受宿主重组途径的能力,这些途径可以在整合后删除、复制或重塑拷贝。重要的是,除了对蛋白质编码基因的影响外,转座子可以直接作为染色体结构元件发挥作用,例如着丝粒和端粒的情况,从而被正向选择。
早期对转座子的观点认为它们是“自私的”DNA,寄生性地存在并在基因组中搭便车,以“功能性”序列(如蛋白质编码基因)为代价。然而,这种观点可能受到不完整数据的限制。随着转座子在真核生物中的丰度和多样性在完整泛基因组中被揭示,我们可能需要转向对其功能更细致的看法,包括考虑在不同层次上起作用的选择,以及表观遗传调控的复杂性如何使它们能够与基因和其他转座子在多样化的基因组生态中共存并可能合作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号