编辑推荐:
这篇综述系统梳理了工程化重复DNA的前沿策略与应用。文章围绕串联重复与散在重复的构建挑战,深入对比了体外(如RCA、Golden Gate、Gibson组装)与体内(基于大肠杆菌、酵母、哺乳动物细胞)方法的核心机制、长度极限与优劣。并展望了其在遗传操作工具(如多路CRISPR、人工染色体)、重复扩增疾病模型构建及生物材料合成等领域的广阔前景,为合成生物学与生物医学研究提供了关键的方法学指南。
工程化重复DNA:构建生命蓝图的“复写”艺术
在人类基因组中,超过一半的序列是由各种重复单元构成的“重复DNA”。它们远非曾经的“垃圾DNA”,而是在基因调控、染色体结构和进化中扮演关键角色,其异常扩增更直接导致亨廷顿舞蹈症、脆性X综合征等数十种神经系统疾病。然而,高度相似的序列如同一把双刃剑,在为基因组提供架构的同时,也给人工设计与合成带来了巨大挑战——复制滑动、同源重组导致的序列不稳定,使得“书写”长片段重复DNA举步维艰。如今,随着长读长测序与合成生物学的进步,一系列精妙的工程化策略正被开发,旨在精确构建、操纵并利用这些重复序列,从而深入理解生命系统,并开发新型工具与材料。
重复DNA的构建策略:体外与体内的交响
构建重复DNA的征途,主要沿着体外化学合成与体内生物组装两条路径展开。
- •
体外方法:在试管中“拼接”重复单元
体外策略的核心在于利用酶的特异性或序列的导向性,将短重复单元高效、有序地拼接成长阵列。其主要机制包括:
- 1.
等温扩增介导的构建:以滚动环扩增(RCA)为代表。该方法以一个环状DNA为模板,在恒温下通过链置换DNA聚合酶进行扩增,产生由模板串联重复组成的超长单链DNA,长度可达数十kb。其变体重叠延伸滚动环扩增(OERCA)则能一步反应产生长度可调的双链DNA库。
- 2.
错配引导的聚合酶延伸:该方法巧妙利用了DNA聚合酶在重复序列上容易发生“链滑动”的特性。例如,长迭代多核苷酸合成(SLIP)技术通过重复的变性-退火循环,利用高保真DNA聚合酶填补缺口,从而实现如CAG/CTG等串联重复的高效扩增。重复延伸PCR(RepEx-PCR)则通过两条短互补寡核苷酸的偏移退火,产生5‘或3’突出端,经聚合酶填补或修剪,逐步延伸得到kb级的重复阵列。
- 3.
限制性内切酶介导的连接:这是经典且高度模块化的方法。Golden Gate组装利用II型限制酶在识别位点外切割产生定制粘端,可实现无缝、一锅多片段组装,非常适合构建有序重复阵列。递归定向连接(RDL)则使用两种产生兼容粘端的限制酶,通过迭代连接使重复阵列成倍增长。
- 4.
体外同源重组:以Gibson组装为例,通过5‘核酸外切酶、DNA聚合酶和连接酶的协同作用,可将带有末端同源臂的多个DNA片段在单一等温反应中无缝拼接。为应对高重复序列的错配问题,可使用独特核苷酸序列(UNS)作为正交接头来引导精确组装。
- 5.
通过降低序列冗余进行设计:当上述方法因序列高度同源而受阻时,可对重复单元进行“去重复化”设计。例如,利用密码子简并性,在不改变编码蛋白质序列的前提下重写核苷酸序列,以降低单元间的相似性。算法辅助的组合密码子加扰和串联重复DNA序列重设计(TReSR)是这一策略的典型代表。
- •
体内方法:在细胞中“组装”宏大的阵列
对于更长、更复杂的重复结构,利用宿主细胞自身的“工厂”进行体内组装更具优势。不同宿主系统各有千秋:
- 1.
在大肠杆菌中构建:大肠杆菌同源重组活性低,有利于重复序列的稳定维持。细菌人工染色体逐步插入合成(BASIS)和接合关联线性细菌人工染色体迭代组装(CALBIA)等新技术,通过迭代的λ-Red重组或接合转移,已能在大肠杆菌中可编程地构建承载人类基因组重复片段、长度超过1 Mb的DNA构件。
- 2.
在酿酒酵母中构建:酿酒酵母以其高效的同源重组能力著称。转化关联重组(TAR)技术可将预先串联化的重复单元一步组装成数十至数百kb的阵列。更前沿的成对切口诱导扩增(PNAmp)和断裂诱导复制介导的串联重复扩展(BITREx)技术,则利用CRISPR切口酶在基因组特定位置诱导DNA复制叉的断裂与修复,从而驱动大片段(可达~1 Mb)的精确头尾串联重复。
- 3.
在哺乳动物细胞中构建:直接在目标基因组位点进行编辑是新兴方向。基于先导编辑的串联重复(TD-PE)和扩增编辑(AE)技术,能够在不供体DNA的情况下,利用成对的pegRNA在基因组原位实现从几十bp到染色体规模(AE可达100 Mb)的精准重复扩增,为疾病建模提供了强大工具。
工程化重复DNA的璀璨应用
掌握了“复写”技术,我们便能利用重复DNA在多个领域绘制创新蓝图。
- •
遗传操作工具的研发
- 1.
多路CRISPR-Cas系统:将多个单向导RNA(sgRNA)以阵列形式表达,是实现多重基因组编辑、干扰(CRISPRi)或激活(CRISPRa)的关键。通过Golden Gate组装、非重复部件设计等策略,可以稳定构建并表达这些包含重复元件的sgRNA阵列,从而实现对多个基因位点的同步操控。
- 2.
人工染色体工程:功能性着丝粒的形成依赖于长片段卫星DNA的重复阵列。通过RCA与TAR结合,可合成长达120-140 kb的阿尔法卫星DNA(alphoid DNA)阵列,转染至人类细胞后能形成全新的人工染色体(HAC),并稳定遗传。在植物中,通过合成特定重复阵列并靶向招募着丝粒组蛋白CENH3,也成功构建了能进行减数分裂稳定传递的植物人工染色体。
- •
构建重复DNA疾病模型
重复扩增疾病,如亨廷顿舞蹈症(CAG重复)、肌强直性营养不良(CTG重复)和C9ALS/FTD(GGGGCC重复),其病理机制研究亟需精确的基因模型。利用SLIP、RDL、Golden Gate等技术,可在体外构建携带不同长度、不同纯度(是否含中断序列)病原性重复的DNA片段,进而通过转染或CRISPR-Cas介导的同源重组(HDR)整合到细胞或模式生物(如果蝇)基因组中,建立同基因型细胞系或动物模型,用于区分RNA毒性或蛋白质毒性,以及进行高通量药物筛选。
- •
生物材料的可编程合成
重复序列是许多卓越天然生物材料(如蜘蛛丝、弹性蛋白、节肢弹性蛋白)性能的基础。通过工程化编码这些蛋白质的重复基因,可以大规模生产性能可调的新型生物材料。
- 1.
蛋白质生物材料:利用RDL、Golden Gate、OERCA或密码子加扰算法,可以精确合成编码类弹性蛋白多肽(ELP)、类节肢弹性蛋白多肽(RLP)、蜘蛛丝蛋白等重复蛋白聚合物的基因,并通过大肠杆菌等系统表达。通过控制重复单元的数量和序列,可以精细调节材料的热响应性、力学强度和自组装行为,应用于药物控释、组织工程支架等领域。
- 2.
核酸纳米材料:RCA产生的长链重复单链DNA,可作为骨架通过金属配位、交联或矿化,进一步构建成DNA纳米花(DNF)或DNA水凝胶。这些材料具有良好的生物相容性、可降解性和可编程的负载能力,在靶向递送、生物传感和智能支架构建中展现出潜力。
展望:从“难以合成”走向“精准调控”
当前,重复DNA的工程化已取得了从碱基到兆碱基级别的构建能力。未来的挑战与机遇并存。一方面,需要从“规避不稳定性”转向“主动调控稳定性”,例如通过改造宿主菌的同源重组系统、利用表观遗传修饰(如异染色质化)来“锁定”重复序列,或借助AI算法从头设计低重复性、高稳定性的合成单元。另一方面,随着构建成本降低和精度提高,工程化重复DNA必将更深入地推动合成生物学、疾病机理研究和生物制造的发展。从解读基因组“天书”到编写功能性的“重复篇章”,我们正逐步掌握设计与构建复杂生命系统的核心语法,开启从基础研究到应用转化的新纪元。