迭代深度学习设计人类增强子:利用浓缩序列语法实现细胞类型特异性

【字体: 时间:2025年06月05日 来源:Cell Systems 9.0

编辑推荐:

  这篇研究通过迭代训练的深度学习模型成功设计了具有渐进增强细胞类型特异性的合成增强子。研究团队验证了从不同数据模态(MPRA/DNase-seq)训练模型的可行性,表征了高性能合成增强子的序列特征,并提出了向更多细胞类型扩展的最佳实践方案。创新性地采用单细胞水平分析揭示增强子活性与转录因子表达的关联,为合成生物学靶向基因表达提供了重要工具。

  

迭代深度学习设计人类增强子:突破细胞类型特异性边界

研究背景与意义
增强子作为人类基因组中的顺式调控元件(CREs),通过调控差异基因表达决定细胞命运。其核心功能单元转录因子结合位点(TFBSs)仅占增强子足迹的极小部分,而整体活性受TFBS身份、丰度、相对位置及侧翼序列等复杂语法调控。在合成生物学和基因治疗领域,开发细胞类型特异性增强子对实现精准基因调控具有重大意义。

研究方法创新
研究团队建立了迭代深度学习设计框架,通过多轮"设计-构建-测试"循环优化增强子性能。首轮训练基于Sharpr-MPRA数据集(29,891个145bp序列),采用多任务CNN架构预测HepG2和K562细胞中的增强子活性。创新性地开发了三种设计算法:模拟退火、快速序列优化(Fast SeqProp)和深度探索网络(DENs),生成1,037个候选增强子(R1-MPRA)。同时训练生成对抗网络(GAN)模型直接从染色质可及性数据(DNase-seq)设计674个增强子(R1-DHS)。

关键研究发现

  1. 性能突破:迭代设计使增强子特异性显著提升。R2代增强子在HepG2中活性达46.2倍差异(log2
    FCH2K
    =5.53),K562中达6.7倍差异(log2
    FCH2K
    =-2.74)。最佳HepG2增强子特异性达7.34,远超天然对照4.87。

  2. 序列语法特征:合成增强子展现出比天然增强子更浓缩的TFBS语法:

    • 基序密度显著增加(R0:44.06±2.38 vs R2:27.21±1.08个独特基序簇)
    • HepG2增强子富含TP53(1.67 motifs/seq)、HNF4A/HNF4G(1.06)
    • K562增强子偏好NFE2/JUNB(1.47)、SPIB/ELK1(1.38)
  3. 基序协同效应:通过系统基序删除实验揭示:

    • TP53位置效应:近启动子区基序贡献更大
    • 冗余模式:双TP53删除在Seq433中显示协同效应(fdev
      <<0)
    • 协作模式:GATA1::TAL1与NFE2/JUNB在Seq976中展现强协同(fdev

技术创新亮点

  1. 多模态训练:成功整合MPRA功能数据和染色质可及性数据,证明不同数据模态的训练可行性。

  2. 单细胞验证:开发scMPRA技术,首次在单细胞水平证实增强子活性与TF表达的关联:

    • GATA1表达与含GATA1::TAL1基序的增强子活性显著相关
    • TP53表达特异性驱动HepG2增强子功能
  3. 微型化设计:成功将增强子缩短至50bp仍保持特异性,为AAV载体基因治疗提供新可能。

应用前景展望
该研究建立的迭代设计框架可扩展至更多细胞类型,特别是:

  1. 原发性细胞:适用于复杂组织环境下的精准调控
  2. 基因治疗:微型增强子(50bp)兼容AAV载体容量限制
  3. 疾病建模:为研究细胞类型特异性调控紊乱提供工具

研究局限性

  1. K562设计性能相对较低,反映缺乏类似TP53的强效驱动因子
  2. 体外报告系统可能无法完全模拟染色质环境
  3. 当前仅验证了两个细胞系的特异性

这项研究为解码人类增强子语法提供了系统性框架,通过深度学习驱动的设计-构建-测试循环,实现了合成增强子性能的迭代优化,为精准基因调控开辟了新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号