单核苷酸分辨率条形码识别实现寡核苷酸子集高效选择

【字体: 时间:2025年02月13日 来源:Nature Communications

编辑推荐:

  从复杂的寡核苷酸文库中选择特定序列的子集对于基因组学和数据存储至关重要,但由于引物设计的限制,面临可扩展性限制。在这里,作者提出了一种基于条形码的选择方法,使高效,分层和可编程的oligo子集检索。

  

韩国光州科学技术院(Gwangju Institute of Science and Technology, GIST)材料科学与工程学院等多个单位的研究人员,包括 Woojin Kim、Mingweon Chon、Yoonhae Koh 等,在《Nature Communications》期刊上发表了题为 “Oligonucleotide subsets selection by single nucleotide resolution barcode identification” 的论文。这一研究成果为复杂寡核苷酸文库的子集选择提供了创新方法,在基因组学、合成生物学以及 DNA 数据存储等领域具有重要意义,有望突破传统技术限制,推动相关领域的进一步发展。


一、研究背景


在现代生物学和生物技术领域,从复杂的寡核苷酸文库中有效选择目标子集至关重要。聚合酶链反应(PCR)作为扩增目标子集的常用技术,在复杂文库中选择性扩增目标寡核苷酸分子时,依赖特定引物序列。然而,其引物设计存在诸多问题,如为确保引物杂交特异性,每个目标子集需有独特的选择区域,且引物长度通常约为 20 个核苷酸(nt),这使得选择的特异性在很大程度上取决于杂交区域的长度。随着子集数量增加,引物合成负担也随之加重。除 PCR 外,其他核酸扩增、富集和选择方法,如基于杂交的捕获和 CRISPR 系统,同样依赖杂交,也面临着选择区域长度的限制,导致当前寡核苷酸选择方法的可扩展性受限。此外,从头合成寡核苷酸的长度目前限制在 200 nt,若为每个子集都分配 40 nt 用于选择区域和复制区域,会造成资源浪费,且在重复子集选择过程中,还需额外考虑防止文库耗尽的问题。尽管已出现一些多路复用目标选择方法,如多重 PCR,但引物合成需求随目标子集数量增加而增多,成为技术发展的瓶颈。


二、研究材料与方法


(一)材料


实验中使用了多种试剂,如 3′ - O - 叠氮甲基 - dNTPs(Jena Bioscience,cat. no. NU - 937、938、939 和 940)、ddNTPs(Jena Bioscience,cat. no. NU - 1015、1016、1017 和 1018)、Tris(2 - 羧乙基)膦(TCEP,Sigma - Aldrich,cat. no. C4706)、ThermoPol? 反应缓冲液(New England Biolabs,cat. no. B9004S)、Therminator?III DNA 聚合酶(New England Biolabs,cat. no. M0333)、Bst DNA 聚合酶(New England Biolabs,cat. no. M0275S)等。同时,还用到了磁珠(Thermo Scientific?,cat. no. 88826)、胺修饰的反向引物、正向引物等用于寡核苷酸文库的固定和扩增。


(二)方法


  1. 合成和选择循环:该过程涉及引入与条形码互补的 3′ - O - 叠氮甲基 - dNTPs,同时添加除互补碱基外的 ddNTPs。利用 TCEP 裂解叠氮甲基基团,在每次偶联和裂解步骤后,用 1x ThermoPol? 反应缓冲液洗涤磁珠三次。在偶联步骤中,将含有特定浓度的 3′ - O - 叠氮甲基 - dNTP、ddNTP、ThermoPol? 反应缓冲液、Therminator?III DNA 聚合酶和无核酸酶水的混合物在 65°C 孵育 30 秒;裂解时,用 50 μL 100 mM pH 9.0 的 TCEP 在 65°C 处理磁珠 1 分钟。最后一个循环后,用 Bst DNA 聚合酶延伸 dNTPs,再次洗涤磁珠,再用 8 mM 尿素处理磁珠使其变性,通过 Monarch? PCR & DNA Cleanup Kit 纯化上清液,完成子集选择过程。

  2. 寡核苷酸文库在磁珠上的固定:为扩增寡核苷酸,使用特定的正向引物和反向引物进行 PCR 反应。将反应混合物按照特定的温度循环进行孵育,扩增后的产物储存备用。之后将胺修饰的反向引物固定在涂有 N - 羟基琥珀酰亚胺(NHS)酯反应基团的磁珠上,使扩增的寡核苷酸与磁珠上的引物退火,再进行延伸反应,最后通过添加尿素使双链 DNA 变性,保留单链 DNA 用于后续选择。

  3. 聚丙烯酰胺凝胶电泳(PAGE)分析:为验证合成和选择过程中获得的寡核苷酸条带,在 PAGE 分析前先进行 PCR。通过 Luna? Universal qPCR Master Mix 和 CFX Connect 实时 PCR 检测系统测量循环阈值,再用 AccuPrime?Taq DNA 聚合酶进行饱和循环扩增。扩增产物在含有 7 M 尿素的 8% 聚丙烯酰胺变性凝胶上电泳,用 SYBR Gold 染色,并用 Invitrogen iBright FL1500 成像系统成像。

  4. NGS 文库制备:合成和选择后,进行 qPCR 定量所选寡核苷酸,根据 qPCR 饱和点确定最佳 PCR 循环数。用特定的引物和聚合酶进行 PCR 扩增,产物经 Monarch? PCR & DNA Cleanup Kit 纯化。在 ATG Lifetech 使用重叠 PCR 方法和 Illumina 索引引物制备文库,纯化后在 iSeq 平台测序。

  5. 数据编码和解码过程:利用 DNA fountain code 将 96.88KB 的乐器数字接口(MIDI)文件编码成 12,000 个 DNA 序列,合成 200 nt 的寡核苷酸,其中 156 nt 用于编码数据。在子集替换实验中,将 766 字节的 MIDI 文件编码成 80 个 DNA 序列。选择后,对测序获得的原始数据进行解码,利用 Reed - Solomon(RS)码对因测序错误未完全比对的序列进行纠错。

  6. NGS 数据分析:从 Illumina iSeq 平台获得 150 bp 双端测序的原始 FASTQ 文件,用 FLASH 将双端读长为 160 nt 的序列合并,再用 FASTP 过滤质量分数低于 30 的序列。将条形码和插入序列作为单序列,用 BWA 与参考序列比对,通过 SAMtools 将 SAM 文件转换为 BAM 文件,得到包含序列及其各自读长计数的文本文件。

  7. NGS 读长计数归一化:对每个条形码,仅计算与参考比对的 BAM 文件中完全匹配的读长。计算每个条形码的每百万读长计数(RPM),并通过将每个层次(基于条形码长度)内条形码的平均值设为 1 来进一步归一化,使各层次的总读长计数反映该层次可能的条形码数量。


三、关键技术路线


研究人员提出的寡核苷酸子集选择方法,核心在于利用序列特异性环状核苷酸合成和模板寡核苷酸阻断技术。通过该技术,能够以单核苷酸分辨率识别条形码,无需为每个子集设计单独的引物。在复杂寡核苷酸文库中,理论上 N 个核苷酸的条形码可编码 4?个寡核苷酸子集。例如,仅 6 个核苷酸的选择区域(条形码)就能识别数千个寡核苷酸子集,这大大降低了引物设计的复杂性。


该方法采用循环反应,在反应过程中,与目标目录条形码匹配的核苷酸与可逆终止子(如 3′ - O - 叠氮甲基脱氧核苷酸)偶联,而其他核苷酸则与不可逆终止子(如双脱氧核苷酸)偶联。原始寡核苷酸文库固定在固体底物(如磁珠)上,便于在选择循环中更换试剂。选择过程从与通用引物区域互补的引物杂交开始,随后进行两步循环,直至达到所需条形码。通过重复循环,去除可逆终止子的保护基团,只有与目标条形码匹配的寡核苷酸才能继续反应,最终通过变性从原始模板中检索出目标寡核苷酸子集。这种方法实现了寡核苷酸子集的分层选择,类似于计算机科学中数字数据的管理方式,将数据组织成具有目录结构的文件,便于高效搜索和选择多个子集,增强了寡核苷酸文库的可编程性。


四、研究结果


(一)多种模式的寡核苷酸子集选择验证


研究人员设计了五个具有不同条形码和长度(54、64、74、84 和 94 bp)的寡核苷酸,每个寡核苷酸一端含有相同的 20 nt 通用引物序列,后面接着条形码区域。理论上 2 nt 条形码足以区分这五个子集,但为展示分层和同时选择多个条形码的能力,实验中分配了 4 nt 条形码。


将寡核苷酸等摩尔混合后,使用与目标条形码对应的可逆和不可逆终止子组合进行选择。在单子集选择实验中,合成和选择过程持续到每个子集的条形码彼此不同,通过聚丙烯酰胺凝胶电泳分析显示,所选寡核苷酸的条带长度因选择而异,与所有五条寡核苷酸条带都可见的对照形成鲜明对比。在分层选择实验中,针对顶层条形码序列进行选择,能够同时选择 “文件夹” 内的所有 “文件”,如选择第一个条形码 T,得到 74、64 和 54 bp 寡核苷酸的条带,进一步选择第二个条形码 A,可分离出 64 和 54 bp 寡核苷酸的条带。在多子集选择实验中,通过使用针对 G 和 T 的可逆终止子以及针对 A 和 C 的不可逆终止子,能够同时选择条形码 G 和 T,后续选择第二个条形码 T 和 C,可特异性选择 94 bp 和 74 bp 寡核苷酸。实验结果表明,该合成和选择方法可高度可编程地应用于寡核苷酸子集选择,实现多种选择模式。


(二)分层编码复杂寡核苷酸文库中的子集选择


为验证该方法在复杂寡核苷酸文库中选择子集的可扩展性,研究人员合成了一个编码数字数据的复杂寡核苷酸文库,该文库由 12,000 个 200 nt 的寡核苷酸组成,每个寡核苷酸通过独特的 4 nt 条形码区分,编码了四首古典音乐的数据。设计的分层条形码结构中,前两个核苷酸识别音乐作品和乐器,后两个核苷酸表示音乐的具体部分。


从该复杂文库中选择不同层次的子集进行分析,在 2 nt 层次子集选择实验中,针对莫扎特《D 小调安魂曲》中长号部分进行选择,通过对选择前后的 NGS 读长计数进行归一化和绘图分析,发现选择特定条形码(如 TG)后,目标条形码的读长计数从 6.25% 飙升至 73.25%,而其他条形码的读长计数均低于原始比例。在 4 nt 层次子集选择实验中,选择代表帕赫贝尔《D 大调卡农》中中提琴第三部分的 ATAC 条形码,其在文库中的比例从选择前的 0.83% 增加到 31.04%,富集倍数达到 37.4 倍。此外,研究人员还展示了在复杂寡核苷酸文库中的多路复用选择,每次合成和选择循环同时选择两个条形码,结果显示目标碱基的富集水平通常是非目标条形码的 34 倍以上,且在所有条形码长度上均能实现一致的富集,无明显偏差。这表明该方法在复杂寡核苷酸文库中具有可靠的选择效率,可实现多种选择模式。


(三)多轮选择的效率及稀有寡核苷酸子集的选择


深入分析 4 nt 条形码在循环 DNA 合成各步骤的选择效率,4 nt 条形码的寡核苷酸子集包含来自 12,000 个多样性文库中的 60、80 和 100 个不同寡核苷酸设计,理论比例分别为 0.5%、0.67% 和 0.83%,选择前平均比例为 0.68%。随着选择过程的进行,每一轮选择都会使子集比例增加,经过四个循环的选择后,比例达到 25.6%,增加了 37.6 倍。


研究人员还测量了使用 10 个不同 4 nt 条形码选择的每个寡核苷酸子集的富集倍数(EF),平均 EF 值为 50.93,且不同条形码之间无显著偏差,这表明可利用条形码达到理论上的复杂度(4?,n 为条形码长度)。通过测量所选条形码的寡核苷酸子集根据测序覆盖度的回收率,并与 PCR 方法对比,发现该方法在选择后分子损失较少。例如,PCR - 基于的选择无论测序覆盖度如何,都会损失约 9.1% 的子集,而该方法单子集选择损失小于 2%,多子集选择损失小于 1%。


研究人员进一步研究了选择 8 nt 条形码以恢复寡核苷酸文库中稀有子集的可能性。对于理论比例为 0.025%(由 12,000 个多样性中的三个不同序列组成)和 0.008%(由 12,000 个多样性中的一个序列组成)的文库进行选择实验,经过八个循环的选择后,三个不同寡核苷酸设计的比例达到 1.27%,增加了 42.4 倍;一个寡核苷酸设计的比例达到 0.48%,增加了 48.1 倍。测量 8 bp 条形码选择前后的每百万归一化读长计数,发现选择后目标条形码的比例显著高于选择前,且明显高于非目标条形码,表明该方法能够有效访问相应 DNA 序列中编码的数据。


(四)分层结构寡核苷酸文库中的靶向子集替换


研究人员验证了在不影响原始文库的情况下替换目标子集的可能性,通过负合成和选择,随后添加新子集来实现。实验旨在将帕赫贝尔《D 大调卡农》中低音提琴部分的文件替换为小提琴部分的文件。


在子集替换过程中,首先选择到包含目标文件的第三级目录,然后在最后一个条形码处应用负合成和选择,即对目标子集偶联不可逆终止子,对非目标子集偶联可逆终止子,从而阻断目标子集(低音提琴部分的第五个子集,条形码为 ACTG),富集除目标子集外的所有低音提琴子集。接着引入新合成的寡核苷酸子集,其条形码与原始低音提琴第五个子集相同,但编码小提琴数据。通过对条形码的 NGS 读长计数结果绘图验证,发现 ACTG 条形码的读长计数减少,而 ACTA 和 ACTC 条形码的读长计数增加。添加新合成的寡核苷酸文库后,观察到含有 ACTG 条形码的新文库读长,证实文件替换成功。


五、研究结论与讨论


研究人员提出的基于合成和选择的寡核苷酸子集选择方法,能够高效且可编程地从复杂寡核苷酸文库中区分目标分子,这是首次不依赖选择性杂交进行寡核苷酸子集选择的尝试。与传统方法(如 PCR 和基于杂交的捕获)相比,该方法具有显著优势。它仅需约 [log?N] nt 的条形码区域即可编码 N 个不同的寡核苷酸子集,大大减少了选择区域的长度,例如,用 2 - 4 nt 的条形码区域就能编码 14 - 128 种类型的子集,仅占总寡核苷酸长度的不到 2%,而以往研究中选择区域通常占总寡核苷酸长度的 15 - 25%。同时,该方法允许根据子集数量调整条形码长度进行可编程设计,8 nt 条形码可编码 47,088 个子集,每 nt 编码的条形码数量约为 PCR 方法的 39.2 倍,理论上 20 nt 条形码可编码 4150 亿个子集。


在目标富集方面,该方法通过两个合成和选择循环,将目标寡核苷酸子集的比例从 6.25% 提高到 73.25%,而其他子集的比例降至 1.96%,富集倍数达到 37.4 倍,这使得在较低测序深度下即可解码寡核苷酸文库中的所有目标子集。尽管目前富集效果可能受到非特异性结合和聚合酶核苷酸偶联效率的限制,但通过实施更严格的洗涤条件和优化聚合酶性能,有望进一步提高富集效果。此外,该方法虽需要通用引物,但可通过平端连接添加,结合缩短的条形码区域,能够降低合成和测序成本。


这一研究成果显著增强了复杂寡核苷酸文库在基因合成、扰动筛选以及 DNA 数据存储等领域的实用性。在 DNA 数据存储中,可高效检索特定数据;在基因合成和扰动筛选中,能更精准地选择目标寡核苷酸子集。同时,该方法还可进一步应用于从复杂生物样本中识别具有高序列相似性的各种目标,为相关领域的研究和应用开辟了新途径,具有重要的科学意义和应用价值。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号