基于扩散模型的合成启动子设计及性能预测:为合成生物学开辟新路径

【字体: 时间:2025年03月21日 来源:mSystems 5.0

编辑推荐:

  本文利用扩散模型(DDPM)设计合成启动子,用 Transformer 模型预测其强度,推动合成生物学发展。

  

一、研究背景与意义

在合成生物学领域,合成启动子的开发意义重大。启动子作为关键的调控元件,能够调节特定基因的转录活性。高性能的启动子不仅可以提高基因合成效率,缩短生物过程的时长,还能降低生物制造的成本。而且,高性能合成启动子库因其知识产权优势,具有巨大的商业潜力。所以,寻找高性能的启动子成为了合成生物学发展的关键。
然而,启动子的筛选和优化面临诸多挑战。传统的修改和优化天然启动子的方法,如随机突变和定点诱变,虽然取得了一定成果,但由于启动子序列空间的组合数量呈指数级增长(长度为 n 的启动子序列有 4n种潜在组合),这些方法对启动子序列空间的探索有限,难以发现高性能的合成启动子。
近年来,深度学习技术在生命科学领域得到了广泛应用。深度生成模型,如生成对抗网络(GAN)和变分自编码器(VAE),在合成启动子的任务中展现出了潜力。但这些方法存在训练难度大、对生物特征处理机制理解不足等问题。
扩散模型基于扩散理论和马尔可夫性质,在文本和图像生成领域表现出色,具有训练过程稳定、收敛速度快的优点。同时,Transformer 模型在处理序列特征方面具有独特优势,已在多个领域广泛应用。本研究将扩散模型和 Transformer 模型引入合成启动子的设计和筛选中,旨在解决传统方法的局限性,为合成生物学提供新的策略。

二、材料与方法

(一)启动子数据集

本研究使用了两个不同的启动子数据集。一个是大肠杆菌(E. coli)K12 MG1655 天然启动子数据集,包含 11,884 个样本,每个样本由 50 个核苷酸(nt)的启动子序列及其对应的强度组成,启动子强度通过 dRNA-seq 测定。另一个是来自蓝藻Synechocystis sp. PCC6803 的启动子数据集,其天然启动子序列是从开放阅读框上游 100 bp 区域提取的,强度同样通过 dRNA-seq 测定。

(二)数据处理

针对不同的任务,研究采用了多种编码方法处理启动子序列。在启动子设计任务中,使用了独热编码(one-hot encoding)。而在预测启动子强度时,为了丰富预测模型的输入,对序列、二核苷酸和位置信息进行了编码。
由于启动子强度数据通常呈现偏态分布,大部分值集中在低强度范围,少数在高强度范围。直接对这种偏态数据进行归一化会压缩大部分数据的值,同时使异常值保留较大幅度,影响模型的学习效率和预测准确性。因此,研究先对原始数据进行对数变换,再进行归一化处理。

(三)扩散模型

本研究采用的去噪扩散概率模型(DDPM)由噪声添加和去噪两个主要部分组成,这两个部分都遵循马尔可夫性质。在噪声添加过程中,DDPM 利用条件分布逐步向原始的独热编码启动子序列x0中引入特定的高斯噪声,经过T步后,将原始数据转换为高斯噪声数据xT。在去噪阶段,模型根据学习到的条件分布预测并消除数据中的噪声,从而从高斯噪声中重建启动子数据。研究使用两个独热编码的启动子数据集对 DDPM 进行训练,然后通过其去噪机制合成启动子序列。

(四)Transformer 模型

研究利用基于 Transformer 的方法来预测启动子强度。Transformer 模型的核心是由多个包含自注意力机制和前馈神经网络的层组成的编码器框架。自注意力机制能够帮助模型评估启动子序列中不同位置的重要性,增强对序列上下文关系的理解。与传统的卷积神经网络(CNN)相比,这种基于 Transformer 的方法能够更好地捕捉遗传数据中的复杂模式,提高启动子强度预测的准确性和有效性。

(五)皮尔逊相关系数

皮尔逊相关系数(PCC)是一种用于量化两个变量XY之间线性关系强度和方向的统计指标。在深度学习中,PCC 不仅可以作为评估模型性能的指标,还可以作为优化的损失函数,尤其在要求模型输出与真实标签之间具有强线性相关性的任务中。本研究采用 PCC 来评估生成模型和预测模型的性能,并且在预测任务中,将 PCC 与均方误差相结合,形成指导模型训练的损失函数。

三、研究结果

(一)启动子生成和强度预测的计算框架

研究构建了一个包含数据集、启动子生成和启动子强度预测三个主要阶段的技术工作流程。首先,获取天然启动子数据集,用于训练后续的生成和预测模型。接着,使用天然启动子数据集对扩散模型进行无监督训练,生成大量合成启动子。最后,利用训练好的基于 Transformer 的模型从生成的合成启动子中筛选出高性能的候选者。整个工作流程被集成到一个启动子设计平台中,用户可以通过该平台获取合成启动子序列及其预测强度,并对结果进行可视化和下载。

(二)基于扩散模型的合成大肠杆菌启动子

研究记录了 DDPM 在训练过程中生成的合成启动子的生物学特征。通过计算启动子中 k-mer 的出现频率、分析 k-mer 频率的相关性以及绘制序列 logo 等方法,评估了合成启动子与天然启动子的相似性。结果显示,合成启动子与天然启动子在 k-mer 频率上具有高度相关性,PCC 值在训练初期迅速上升,随后稳定在较高水平,表明生成的启动子在统计特征上与天然启动子相似。序列 logo 分析表明,训练后的 DDPM 能够成功捕获天然启动子中 - 10 和 - 35 区域的序列基序,并且随着训练的进行,对 - 35 区域基序的学习能力逐渐增强。此外,合成启动子与天然启动子在 6-mer 频率的位置分布上也非常相似,进一步证明了扩散模型能够成功捕获和复制天然启动子的关键序列特征。

(三)基于扩散模型的合成蓝藻启动子分析

为了验证 DDPM 在不同训练数据集上合成启动子的稳健性,研究使用了蓝藻Synechocystis sp. PCC6803 的启动子数据集进行测试。结果表明,随着训练的进行,合成启动子与天然启动子的序列 logo 相似性增加,在 [-14, -2] 区域,两者的序列特征高度相似。与最近报道的 VAE 模型相比,DDPM 生成的合成启动子在捕获蓝藻启动子的关键生物学特征方面表现更优,合成启动子与天然启动子在关键基序的分布上更为一致。

(四)DDPM 模型与 VAE 合成的大肠杆菌启动子比较

研究将 DDPM 与 VAE 进行对比,评估两者在合成大肠杆菌启动子方面的性能。序列 logo 显示,VAE 合成的启动子在 - 10 和 - 35 区域模仿了天然启动子,但在其他区域存在明显噪声。从 6-mer 频率的位置分布来看,VAE 生成的启动子在某些基序的分布上出现异常峰值,而 DDPM 合成的启动子在结构和分布上更接近天然启动子,尤其是在关键的 - 35 和 - 10 区域,表明 DDPM 在捕获启动子基序的位置特异性方面具有更好的能力,能够生成更符合生物学特征的启动子序列。

(五)基于 Transformer 的大肠杆菌启动子强度预测

研究训练了一个基于 Transformer 的预测模型来准确预测启动子强度。首先对大肠杆菌天然启动子数据集进行处理,采用对数变换和归一化方法处理启动子强度数据,以确保准确表示所有启动子序列的特征。实验结果表明,使用 CNN 预测启动子强度时,预测值与实际值的 PCC 为 0.25,而优化编码方法和采用基于 Transformer 的预测模型后,PCC 提高到 0.295,表明该模型能够更准确地预测合成启动子的强度。进一步的研究发现,启动子 - 10 和 - 35 区域的突变对启动子强度的影响更为显著,且不同类型的突变对启动子强度的影响存在差异,这与天然启动子的序列特征相符,也证明了基于 Transformer 的模型能够有效捕获影响启动子强度的关键序列特征。

四、讨论

本研究利用 DDPM 合成启动子,并使用 Transformer 模型筛选高性能的启动子。分析结果表明,合成启动子在序列 logo、k-mer 频率相关性和 6-mer 频率位置分布等方面与天然启动子具有相似的特征。在启动子强度预测任务中,Transformer 模型表现出良好的性能,验证了其有效性。
与 VAE 相比,DDPM 在合成启动子方面具有优势。DDPM 通过一系列去噪操作将随机噪声恢复为启动子数据,类似于生物进化过程,模型架构相对简单,训练复杂度低,能够生成高质量的样本,避免了 VAE 常见的输出模糊和模式崩溃问题。
然而,本研究也存在一些有待改进的地方。在预测启动子强度的监督回归任务中,高质量的标注数据集对模型性能至关重要,但目前测量启动子强度的实验复杂且成本高。未来可以结合高通量实验和深度生成模型来解决这一问题。此外,模型的输入特征可能无法捕获启动子序列的所有生物学特征,利用自然语言处理技术开发启动子库的词向量,有望增强生成模型的输入特征,进一步改进启动子合成技术。
总体而言,本研究利用 DDPM 完成了合成大肠杆菌启动子的任务,并通过基于 Transformer 的模型筛选出高性能的启动子,为合成生物学中启动子的设计和筛选提供了新的思路和方法,展示了深度学习在合成生物学领域的巨大应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号