编辑推荐:
本文聚焦非长末端重复(non-LTR)反转录转座子,通过冷冻电镜(cryo-EM)和生化研究,解析昆虫、脊椎动物 R2 反转录转座子及人类 LINE-1 反转录转座子的结构与转座机制,探讨其在基因组进化和生物学中的意义,为深入研究提供重要依据。
移动反转录转座子蛋白作用机制的结构与生化研究
在生命的微观世界里,有一种神奇的 “遗传小精灵”—— 自主非长末端重复(non-LTR)反转录转座子,长散在核元件(LINE)就是其中的典型代表。它们广泛存在于真核生物中,悄无声息却又深刻地塑造着基因组的面貌,对宿主的生理健康和疾病发展都有着不可忽视的影响。
non-LTR 反转录转座子有着独特的 “复制粘贴” 方式,即靶引物反转录(TPRT)。在这个过程中,反转录转座子编码的蛋白会在靶 DNA 上切开一个小口,以此为引物,以结合的 RNA(通常是自身编码的 mRNA)为模板进行反转录,从而在基因组中创造出新的拷贝。
过去,由于活性复合物的纯化和重组面临诸多挑战,关于 non-LTR 反转录转座子的结构信息一直是个谜。但近年来,随着研究技术的飞速发展,针对昆虫、鸟类、海龟的位点特异性 R2 反转录转座子以及人类 LINE-1 反转录转座子的生化研究和冷冻电镜(cryo-EM)结构解析取得了重大突破,为我们打开了了解它们的新窗口。
昆虫和脊椎动物物种 R2 反转录转座子组件的冷冻电镜结构
R2 反转录转座子是位点特异性元件,专门 “定居” 在多细胞动物基因组中串联重复的 rDNA 基因位点。家蚕的 R2 蛋白(BoMo)一直是研究 TPRT 的重要模型。此前的生化研究虽然知道 R2 蛋白能识别反转录转座子 RNA 的 3′非翻译区(UTR),并在 28S rDNA 位点的第一条靶 DNA 链上切口启动 TPRT,但 TPRT 起始的原子水平机制一直不清楚。
最近两项 cryo-EM 研究揭开了部分神秘面纱,它们展示了 BoMo 在启动 TPRT 时与 3′UTR RNA 和靶 DNA 结合的结构。研究发现,不同 R2 蛋白在 TPRT 过程中有着相似的基本机制,限制性内切酶样(RLE)结构域负责切割靶 DNA 链,切割产生的 3′端会转移到逆转录酶(RT)核心区域,与 3′UTR RNA 碱基配对,进而启动第一条链的合成。
在探索将 R2 编码蛋白用于人类细胞 rDNA 位点转基因插入的过程中,研究人员发现鸟类的 A 进化枝 R2 蛋白(如来自斑胸草雀 Taeniopygia guttata 的 TaGu)在精确转基因递送方面表现出色,而家蚕所属的 D 进化枝 BoMo 在这方面效率较低。
进一步对 TaGu 和来自平胸龟 Platysternon megacephalum 的 A 进化枝 R2 蛋白(PlaMe)进行 cryo-EM 结构测定,发现 A 进化枝和 D 进化枝 R2 蛋白存在一些差异。比如,A 进化枝的 TaGu 和 PlaMe 有三个锌指结构和 Myb 结构域,能与 rDNA 上游更长的区域相互作用,而 D 进化枝的 BoMo 只有一个锌指结构和 Myb 结构域,与 rDNA 的结合区域较小。此外,A 进化枝 TaGu 和 PlaMe 中最 N 端的锌指(ZnF3)还能与 3′UTR RNA 结合。
R2 蛋白还能切割第二条靶 DNA 链,但这个活性在 3′UTR RNA 存在时会受到抑制,当第一条链 cDNA 合成以及模板 RNA-cDNA 双链产生,3′UTR RNA 从初始结合位点脱离后,第二条链切割活性才会被激活。家蚕 R2 RNA 的 5′端有一个折叠基序,可能与 BoMo 相互作用来激活第二条链的切割,但这个特征在其他物种的 R2 中并不保守。研究人员还解析了 PlaMe 在第二条链切割后的结构,发现其 N 端锌指和 Myb 结构域仍与上游靶 DNA 结合,且结合方式与 TPRT 起始复合物类似,不过第二条 cDNA 链合成的具体机制还不清楚。
人类长散在核元件 - 1 反转录转座的生化和冷冻电镜研究
人类 LINE-1 反转录转座子编码两种蛋白:RNA 伴侣 ORF1p 和反转录转座酶 ORF2p 。与 R2 蛋白对靶 DNA 的极端选择性不同,ORF2p 对靶 DNA 的特异性较低,这使得 LINE-1 在人类基因组中广泛插入。
ORF2p 的 N 端有一个类似于参与碱基切除修复的无嘌呤 / 无嘧啶内切酶结构域(APE),它倾向于在 5′ TTTTT/AA 3′的短共有基序处切割。过去,由于 LINE-1 核糖核蛋白的纯化和重组困难,对 LINE-1 反转录转座的生化和结构基础的研究进展缓慢。虽然之前已经有 ORF1p 的三个特定结构域和 ORF2p 的 APE 结构域的 X 射线晶体结构报道,但对全长 ORF2p 与核酸相互作用的整体认识还很缺乏。
近期三项 cryo-EM 研究取得了重要进展,其中 Baldwin 等人利用细菌表达系统纯化了缺少 N 端 APE 结构域和 C 端结构域(CTD)的 ORF2p 蛋白核心,并确定了核酸底物在 ORF2p RT 活性位点结合的结构。另一项研究通过在大规模昆虫细胞培养中过表达并纯化全长 ORF2p,利用生化和 cryo-EM 技术揭示了 LINE-1 反转录转座的新机制。研究发现,模板 RNA 的 poly (A) 尾与 ORF2p 的多个结构域相互作用,包括 N 端延伸基序(NTEs)、APE 内切酶结构域(EN)连接子以及 CTD,形成了序列特异性的接触。此外,Alu 或合成 RNA 中的茎环结构通过静电相互作用与 ORF2p 结合,这种结合有助于定位 Alu RNA 的 poly (A) 尾,从而启动 TPRT。
生化分析表明,ORF2p 的 DNA 切割和 TPRT 活性在特定条件下才会被极大地激活。当 TTTTT/AA 切割位点位于靶双链 DNA(dsDNA)的 5′端附近,且 5′端有一段 27 个核苷酸(nt)的单链 DNA(ssDNA)区域时,ORF2p 的活性最高,更短的 ssDNA 突出对其活性的刺激作用则小得多。通过结构分析推测,ORF2p 的 CTD 与切割位点上游的 dsDNA 之间的空间位阻可能是导致这种偏好性的原因。后续研究也证实,ORF2p 在完全双链的靶 DNA 上几乎没有 TPRT 活性,而在有最小 7 nt ssDNA 5′突出的靶 DNA 上能检测到 TPRT 活性。这一结果很好地解释了为什么 LINE-1 反转录转座子在细胞周期的 S 期、在滞后链模板上插入的偏好性,因为这些区域存在丰富的 5′ ssDNA 突出结构,且 ORF2p 与增殖细胞核抗原(PCNA)相互作用,而 PCNA 在 DNA 复制过程中发挥着重要作用。
Ghanim 等人还测定了 ORF2p 与双链切割的靶 DNA 结合的 cryo-EM 结构,发现切割的第二条链密度与未分配的单链 RNA 密度相连,进而与 ORF2p RT 活性位点的模板 RNA 相连。不过,由于 ORF2p 无法在双链靶 DNA 上进行第一次切割,这种双链 DNA 结合模式的生理意义还需要进一步探究。此外,ORF2p 与 PCNA 的结合方式也存在多种可能,既有最初定义的结合基序,也有 AlphaFold3 预测的新结合位点,明确这些不同的结合模式对理解 LINE-1 反转录转座机制至关重要。
反转录转座机制的进化方面
对比原核生物和真核生物 non-LTR 反转录元件的反转录转座机制,能发现一些有趣的异同点。相同的是,两者都利用 DNA 切割事件来引发反转录元件 RNA 的反转录,但它们使用的底物有所不同。随着进化,真核生物反转录转座子 RNA 的结构变得越来越简单。从具有复杂折叠结构的 II 型内含子 RNA,到结构相对简化的真核生物 R2 转座子 RNA,再到人类 LINE-1 主要识别 poly (A) 序列的 RNA,复杂性逐渐降低。与此同时,反转录元件编码的蛋白质在数量、大小和结构域复杂性上都有所增加,它们在定义 TPRT 的靶 DNA 特异性方面发挥着越来越重要的作用。
值得注意的是,某些 II 型内含子会利用 DNA 复制叉产生的滞后链 DNA 模板和冈崎片段进行插入,这与人类 LINE-1 的插入方式相似。实际上,许多原核生物的移动元件都善于利用滞后链上的 “弱点”,比如冈崎片段引物暴露的 3′ OH、暴露的 ssDNA 或复制相关蛋白的存在,来实现自身的靶向插入。
结论和未解决的问题
近期对昆虫和脊椎动物 R2 反转录转座子蛋白以及人类 LINE-1 ORF2p 的 cryo-EM 和生化研究,极大地推动了我们对真核 non-LTR 反转录转座子插入机制的结构和功能理解,为进一步研究奠定了坚实的基础。但目前仍有许多未解之谜。例如,活性反转录元件 RNA: 蛋白质复合物是如何组装以实现有效的反转录转座的?虽然推测这一过程可能涉及共翻译组装,遵循 “顺式偏好” 机制,但这种机制在人类 LINE-1 核糖核蛋白组装中的普遍性还有待验证。此外,ORF1p 在 LINE-1 反转录转座过程中的具体作用还不明确,它被认为是 LINE-1 mRNA 的 RNA 伴侣,但对 Alu RNA 的反转录转座却不是必需的。最后,反转录转座过程中产生的 DNA 损伤是如何修复,从而稳定插入新的反转录转座子拷贝的,这一过程也仍然是个谜。未来,还需要更多的生化、功能和结构研究来揭示这些关键步骤,让我们更深入地了解真核生物反转录转座机制。