基于深度学习预测的适应性景观从头设计绝缘顺式调控元件

【字体: 时间:2025年07月05日 来源:Nucleic Acids Research 16.7

编辑推荐:

  本研究针对基因表达调控中宿主依赖性效应的难题,提出了一种创新的绝缘设计策略。研究人员通过构建异源配对的顺式(cis)-反式(trans)调控模块,结合深度学习算法与实验数据纯化流程,成功实现了K1.5和T7 RNA聚合酶(RNAP)系统全长度启动子的从头设计。该研究不仅建立了宿主独立的转录活性预测模型,更实现了跨物种(大肠杆菌和CHO细胞)的精准表达调控,为合成生物学元件设计提供了新范式。

  

基因表达的精确调控是合成生物学领域的核心挑战。尽管深度学习技术在顺式调控序列活性预测方面取得显著进展,但宿主细胞环境带来的背景干扰始终是难以逾越的障碍。这种宿主依赖性效应使得设计的调控元件在不同生物系统中表现不稳定,严重制约了合成基因回路的可预测性和可移植性。更关键的是,传统方法多聚焦于局部序列特征的优化,鲜有研究能实现全长度调控序列的从头设计。

清华大学和中国科学院深圳先进技术研究院的研究团队在《Nucleic Acids Research》发表的研究中,创新性地提出"绝缘设计"策略。该研究选择噬菌体K1.5 RNA聚合酶及其同源启动子作为模型系统,通过三个关键步骤实现突破:首先利用计算模型过滤宿主(大肠杆菌)依赖性启动子序列;随后通过诱导表达实验筛选特异性响应异源RNAP的启动子;最终建立纯化的宿主独立活性数据集。基于这一高质量数据集,研究人员开发了卷积神经网络(CNN)模型,其预测精度达到Pearson相关系数0.95(R2=0.90)。

关键技术方法包括:1) 构建K1.5 RNAP诱导表达系统与随机突变启动子库;2) 流式细胞术定量分析启动子活性;3) 基于特征图谱的适应性景观构建;4) 梯度优化算法实现启动子从头设计;5) CHO细胞系验证跨物种表达稳定性。

研究结果部分:

  1. 随机序列难以产生正交启动子
    通过对>109随机序列的筛选发现,所有活性启动子均为宿主RNAP依赖型,证实功能性K1.5启动子在序列空间中占比极低。这一发现促使研究转向野生型K1.5启动子的衍生突变库构建。

  2. 纯化数据集实现精准预测
    通过计算过滤和实验验证获得1252个宿主独立启动子序列。CNN模型在仅300个训练样本时即达到稳定预测精度,显著优于线性回归模型。特征可视化显示模型成功捕获了TATA结合基序等关键调控特征。

  3. 半理性设计获得梯度强度启动子
    基于适应性景观指导,设计出58个表达强度覆盖野生型1/32至1倍的启动子。实验验证显示预测与实测值高度吻合(R2=0.82),且序列差异均>7bp,有效避免同源重组。

  4. 从头设计突破宿主限制
    采用梯度优化算法从随机序列出发,成功设计41个功能性启动子。通过减去宿主背景活性,预测精度提升至R2=0.90。优化轨迹显示序列沿适应性景观梯度向高活性区域演进。

  5. 跨物种与系统普适性验证
    设计的启动子在CHO细胞中保持线性表达关系(R2=0.54)。该方法成功拓展至T7 RNAP系统,证实其广泛适用性。

该研究通过创新的"绝缘设计"理念,首次实现了宿主独立的全长度启动子从头设计。其核心突破在于:1) 建立cis-trans配对模块的纯化分析框架;2) 揭示简单RNAP系统的低崎岖度适应性景观特征;3) 开发兼顾序列与功能多样性的设计策略。特别值得注意的是,设计的启动子在大肠杆菌和哺乳动物细胞中均保持活性定量关系,这一特性为合成生物学元件的标准化和模块化提供了新思路。研究展示的"数据纯化-模型训练-逆向设计"方法论,可拓展至更复杂的调控元件设计,如增强子和核糖体结合位点等,为合成生物学领域的理性设计树立了新范式。

局限性方面,低活性启动子(<5倍背景)的预测仍受荧光报告系统噪声限制,未来可采用更灵敏的检测方法。此外,随着调控系统复杂度的增加,所需训练数据量可能呈指数增长,这将是后续研究需要解决的关键问题。总体而言,该研究为克服宿主依赖性这一合成生物学长期挑战提供了切实可行的解决方案,其方法论创新将对基因回路设计和细胞工厂构建产生深远影响。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号