深度学习预测多模板PCR中的序列特异性扩增效率
《Nature Communications》:Predicting sequence-specific amplification efficiency in multi-template PCR with deep learning
【字体:
大
中
小
】
时间:2025年10月19日
来源:Nature Communications 15.7
编辑推荐:
本研究针对多模板PCR中存在的扩增偏倚问题,开发了一种基于深度学习的预测模型。研究人员通过合成寡核苷酸池和高通量测序,系统量化了不同序列的PCR扩增效率,并利用1D-CNN模型准确识别低效扩增序列。研究发现,短序列基序通过适配体介导的自引物机制抑制扩增,这一发现为改进PCR实验设计和DNA数据存储编码策略提供了重要依据。
在分子生物学研究中,聚合酶链式反应(PCR)是一项不可或缺的技术,广泛应用于基因检测、病原体诊断和高通量测序等领域。然而,当反应体系中同时存在大量不同模板时,即多模板PCR(multi-template PCR),不同序列的扩增效率存在显著差异,导致最终测序结果出现严重偏倚。这种扩增偏倚(amplification bias)不仅影响DNA数据存储的可靠性,也对代谢组学(metabarcoding)和RNA测序等定量分析产生干扰。
传统观点认为,GC含量是导致PCR偏倚的主要因素,但越来越多的证据表明,问题远比想象中复杂。为了解决这一长期存在的技术难题,来自苏黎世联邦理工学院和马克斯·普朗克研究所的研究团队在《Nature Communications》上发表了他们的最新研究成果。
研究人员设计了两组合成寡核苷酸池(GCall和GCfix),分别包含12,000条随机序列和GC含量固定为50%的序列。通过系列扩增和Illumina测序,量化每条序列的扩增效率。利用一维卷积神经网络(1D-CNN)结合位置编码(positional encoding)构建预测模型,并开发了CluMo(Clustering-based Motif discovery)方法进行基序发现。通过qPCR验证特定序列的扩增效率,并设计含特定基序的验证池进行外部验证。
研究人员通过系列PCR扩增和深度测序发现,在多模板PCR中,约2%的序列表现出极低的扩增效率。这些序列在扩增过程中逐渐被“稀释”,在经过90个PCR循环后,其相对覆盖率下降至不足10%。通过比较固定GC含量和可变GC含量的两组序列,研究人员发现GC含量本身并不能完全解释扩增效率的差异,表明存在其他更为复杂的序列特性影响因素。
为了探究导致某些序列扩增效率低下的原因,研究人员比较了多种机器学习模型的预测性能。结果显示,传统基于GC含量和碱基频率的逻辑回归模型预测准确度接近随机分类器,表明单纯的碱基组成无法解释扩增效率差异。而结合位置编码的1D-CNN模型表现最佳(AUROC>0.8),显著优于其他模型,说明扩增效率与序列中位置特定的特征密切相关。
通过CluMo方法,研究人员从训练好的1D-CNN模型中发现了多个与低扩增效率显著相关的短序列基序。这些基序大多包含CGTG子序列,并且在低效扩增序列中倾向于出现在序列起始位置(靠近引物结合位点)。通过基序替换实验,研究人员证实这些基序对模型的预测性能至关重要,替换后模型性能显著下降至基线水平。
机制研究表明,发现的基序与PCR适配体(adapter)序列存在短互补区,能够形成发夹结构(hairpin),从而引发自引物(self-priming)。这种适配体介导的自引物机制抑制了引物退火,导致扩增效率下降。热力学分析表明,即使在高至54-60°C的PCR退火温度下,这些短基序(4-6 nt)形成的发夹结构仍然稳定,与引物退火竞争。
研究人员在不同文献数据集上评估了模型的泛化能力,发现预测性能高度依赖于实验条件(如聚合酶类型和适配体序列)。使用相同实验条件的数据集间模型转移性较好,而条件不同的数据集间预测性能较差。这一发现强调了PCR偏倚的工作流程依赖性特征,不同实验条件可能导致不同类型的扩增效率问题。
通过外部实验室设计的验证池(包含10,000条随机序列和2,000条含特定基序的序列),研究人员验证了模型的稳健性和基序效应。在相同实验条件下,模型预测性能与内部验证相当(AUROC约0.8)。特定基序(如TCGTGT)在序列末端引入时,可导致扩增效率下降4.8±2.4%,相当于每14个循环相对丰度减半。与现有过滤方法相比,1D-CNN过滤能更有效地减少低覆盖率序列,将实现99%序列回收率所需的测序深度降低四倍。
本研究通过结合高通量实验和深度学习,系统揭示了多模板PCR中序列特异性扩增偏倚的分子机制。研究发现,短序列基序通过适配体介导的自引物机制显著影响扩增效率,且这种效应具有位置依赖性。开发的1D-CNN预测模型和CluMo基序发现方法不仅为理解PCR偏倚提供了新视角,也为改进实验设计提供了实用工具。
该研究的创新点在于首次系统揭示了短序列基序在PCR偏倚中的关键作用,并提出了适配体介导的自引物这一新机制。相比传统的GC含量约束,基于深度学习的序列筛选能更有效地减少扩增偏倚,提高DNA数据存储的可靠性。这些发现对依赖PCR的各类应用,包括基因组学、诊断学和合成生物学等领域具有重要指导意义。
未来,这种基于深度学习的预测框架有望应用于更广泛的PCR条件优化和序列设计场景,为高通量测序技术的精准化提供新思路。同时,研究发现的工作流程依赖性特征也提示,在不同实验条件下可能需要特定的模型优化和验证。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号