利用主动学习方法优化调控DNA
《Computational Biology and Chemistry》:Optimization of regulatory DNA with active learning
【字体:
大
中
小
】
时间:2025年10月08日
来源:Computational Biology and Chemistry 3.1
编辑推荐:
本文提出使用主动学习优化DNA序列设计,通过迭代实验数据收集和模型训练,有效导航高度非凸基因组-表型景观,尤其在合成NK模型和酵母促导体数据中表现优于传统单次优化方法,并验证了引入生物学知识(如转录因子结合位点)的改进效果。
在生物技术领域,DNA序列设计对于实现特定的表型优化至关重要。许多应用依赖于经过基因工程改造的微生物菌株,以实现异源蛋白的高产。为了提高蛋白产量,通常采用优化的调控DNA元件设计表达系统。然而,传统的方法在面对复杂、非凸的基因型-表型景观时,往往存在训练数据覆盖范围狭窄、模型泛化能力有限以及非凸性带来的挑战。为了解决这些问题,本文提出了一种基于主动学习的策略,通过迭代测量、模型训练和序列采样与选择来优化表达水平。这种方法不仅在合成数据上表现出色,还在酵母启动子序列的实验数据中验证了其有效性,表明主动学习在处理非凸景观时具有显著优势。
### 主动学习在合成基因型-表型景观中的应用
为了测试主动学习在高度非凸景观中的表现,我们使用了经典的NK模型来生成合成数据。NK模型是一种用于模拟基因型-表型关系的理论模型,其中每个基因型位点与其他位点存在相互作用。这种模型能够通过调节参数来控制景观的复杂性,从而模拟不同程度的表型非凸性。我们通过改变参数值,生成了不同复杂度的NK景观,并利用t-SNE算法对这些景观进行了可视化。结果显示,随着景观的非凸性增加,表型极端值的分布变得更加分散,表明在高度非凸的景观中,传统的一次性优化方法难以找到全局最优解。
在模型训练方面,我们采用了一个包含2,000个序列的拉丁超立方采样(LHS)数据集,作为训练数据。模型在测试集上的表现显示,当没有表型相互作用时,模型可以以较高的准确度进行回归。然而,当引入更高阶的相互作用时,模型的预测能力显著下降,即使经过特定的神经网络架构优化,也难以准确捕捉表型的变化趋势。为了克服这一问题,我们引入了主动学习策略,通过迭代的方式不断补充新的数据,提高模型的准确性和泛化能力。
在主动学习过程中,我们采用了多种序列采样策略,包括随机采样、定向进化(Directed Evolution, DE)以及基因漂变和重组方法。其中,定向进化采样在四轮主动学习后表现出更高的优化效果,能够在不同水平的NK景观中找到更优的序列。此外,基因漂变和重组方法也对优化过程产生了积极影响,尽管它们的性能略逊于定向进化。这些结果表明,主动学习能够有效地探索和利用基因型空间,从而提高模型的预测能力和优化效果。
### 酵母启动子序列的主动学习优化
为了进一步验证主动学习在真实生物数据中的有效性,我们利用了来自Vaishnav等人的酵母启动子序列数据集。该数据集包含超过2000万个80个碱基对的启动子序列,并在两种不同的培养基中测量了其对黄荧光蛋白(YFP)表达的影响。这些数据为我们的研究提供了理想的实验基础,因为它们涵盖了广泛的基因型-表型关系,并且可以通过子采样来模拟不同的应用场景。
我们使用了一个基于Transformer的深度学习模型作为表达景观的代理模型,该模型在两种培养基中都取得了高精度的预测效果。通过将这些预训练模型引入主动学习循环,我们能够更有效地进行序列优化。实验结果表明,主动学习在不同培养基条件下都能找到具有较高表达水平的序列,并且在某些情况下,使用来自不同培养基的预优化数据作为初始条件,能够显著提高最终优化效果。这一发现表明,主动学习不仅能够利用现有的数据,还能有效整合不同实验条件下的信息,提高优化的鲁棒性。
在主动学习过程中,我们还探索了不同的序列采样策略,包括随机采样、定向进化以及基因漂变和重组方法。结果显示,定向进化采样在四轮主动学习后能够找到更高表达水平的序列,而基因漂变和重组方法则在一定程度上提高了序列多样性。此外,我们还引入了任务相关的生物知识,例如通过加权序列模因(motif)来改进主动学习策略。这种加权方式能够引导模型更有效地识别与表达水平相关的调控元件,从而提高优化效果。
### 主动学习的性能提升与应用潜力
为了进一步提高主动学习的性能,我们探讨了多种方法,包括调整探索与利用的平衡参数、使用不同的深度学习模型架构以及引入生物知识。其中,探索与利用的平衡参数对模型的性能具有重要影响,过高或过低的参数值都会导致模型在优化过程中偏离最优路径。通过在NK模型和酵母启动子数据集上进行实验,我们发现,适当的参数调整能够显著提高模型的准确性和优化效果。
此外,我们还比较了不同深度学习模型架构在序列-表达预测中的表现。虽然本文主要使用了前馈神经网络(Feedforward Neural Network, MLP),但其他模型如卷积神经网络(Convolutional Neural Network, CNN)在某些情况下也表现出更好的性能。这表明,不同的模型架构可能在特定的基因型-表型景观中具有不同的优势,未来的研究可以进一步探索这些模型在DNA序列优化中的应用潜力。
在数据转移方面,我们测试了主动学习在不同实验条件下的表现。通过使用来自不同培养基的预优化数据作为初始条件,我们发现主动学习能够在新的实验条件下找到具有较高表达水平的序列。这一结果表明,主动学习不仅适用于单一实验条件下的优化,还能够有效利用跨实验条件的数据,提高优化的通用性和适应性。
### 未来研究方向与应用前景
尽管本文展示了主动学习在DNA序列优化中的有效性,但仍然存在一些需要进一步研究的问题。例如,如何更有效地整合不同实验条件下的数据,如何优化探索与利用的平衡参数,以及如何利用更复杂的模型架构来提高预测精度。此外,主动学习在处理大规模数据集时的计算效率也是一个重要的考虑因素。
未来的研究可以探索更多生物相关的知识,如调控元件的相互作用网络、基因表达的调控机制等,以进一步提高主动学习的性能。同时,结合其他优化方法,如贝叶斯优化和生成模型,可能会带来更好的优化效果。此外,主动学习在其他生物技术应用中的潜力也值得进一步研究,例如在基因编辑、合成生物学和药物发现等领域。
总之,主动学习作为一种迭代优化策略,在处理复杂、非凸的基因型-表型景观时表现出显著的优势。通过不断补充新的数据,模型能够逐步提高其预测能力和优化效果,从而找到更优的DNA序列。这种方法不仅能够提高实验效率,还能有效利用跨实验条件的数据,为生物技术中的DNA序列设计提供了新的思路和工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号