
-
生物通官微
陪你抓住生命科技
跳动的脉搏
迭代深度学习设计人类增强子:利用浓缩序列语法实现细胞类型特异性
【字体: 大 中 小 】 时间:2025年06月05日 来源:Cell Systems 9.0
编辑推荐:
这篇研究通过迭代训练的深度学习模型成功设计了具有渐进增强细胞类型特异性的合成增强子。研究团队验证了从不同数据模态(MPRA/DNase-seq)训练模型的可行性,表征了高性能合成增强子的序列特征,并提出了向更多细胞类型扩展的最佳实践方案。创新性地采用单细胞水平分析揭示增强子活性与转录因子表达的关联,为合成生物学靶向基因表达提供了重要工具。
迭代深度学习设计人类增强子:突破细胞类型特异性边界
研究背景与意义
增强子作为人类基因组中的顺式调控元件(CREs),通过调控差异基因表达决定细胞命运。其核心功能单元转录因子结合位点(TFBSs)仅占增强子足迹的极小部分,而整体活性受TFBS身份、丰度、相对位置及侧翼序列等复杂语法调控。在合成生物学和基因治疗领域,开发细胞类型特异性增强子对实现精准基因调控具有重大意义。
研究方法创新
研究团队建立了迭代深度学习设计框架,通过多轮"设计-构建-测试"循环优化增强子性能。首轮训练基于Sharpr-MPRA数据集(29,891个145bp序列),采用多任务CNN架构预测HepG2和K562细胞中的增强子活性。创新性地开发了三种设计算法:模拟退火、快速序列优化(Fast SeqProp)和深度探索网络(DENs),生成1,037个候选增强子(R1-MPRA)。同时训练生成对抗网络(GAN)模型直接从染色质可及性数据(DNase-seq)设计674个增强子(R1-DHS)。
关键研究发现
性能突破:迭代设计使增强子特异性显著提升。R2代增强子在HepG2中活性达46.2倍差异(log2
FCH2K
=5.53),K562中达6.7倍差异(log2
FCH2K
=-2.74)。最佳HepG2增强子特异性达7.34,远超天然对照4.87。
序列语法特征:合成增强子展现出比天然增强子更浓缩的TFBS语法:
基序协同效应:通过系统基序删除实验揭示:
技术创新亮点
多模态训练:成功整合MPRA功能数据和染色质可及性数据,证明不同数据模态的训练可行性。
单细胞验证:开发scMPRA技术,首次在单细胞水平证实增强子活性与TF表达的关联:
微型化设计:成功将增强子缩短至50bp仍保持特异性,为AAV载体基因治疗提供新可能。
应用前景展望
该研究建立的迭代设计框架可扩展至更多细胞类型,特别是:
研究局限性
这项研究为解码人类增强子语法提供了系统性框架,通过深度学习驱动的设计-构建-测试循环,实现了合成增强子性能的迭代优化,为精准基因调控开辟了新途径。
生物通微信公众号
知名企业招聘