综述:转录增强子的建模与设计:解锁基因调控的密码

【字体: 时间:2025年03月02日 来源:Nature Reviews Bioengineering

编辑推荐:

  为解析增强子调控基因表达的复杂规则,研究人员开展转录增强子建模与设计研究,助力基因治疗等应用。

  在生命的微观世界里,基因表达的调控如同一场精密的交响乐演奏。转录增强子(transcriptional enhancers)作为基因组中的 “指挥家”,掌控着基因表达的节奏。它含有调控基因表达的关键信息,这些信息通过精确排列的转录因子结合位点(transcription factor-binding sites,TFBSs)编码。然而,要理解增强子如何在不同细胞类型中精准调控基因表达,却并非易事。目前,基因组序列多样性不足以探索增强子活性的所有潜在特征,而且现有模型在预测基因表达时,因数据同源性导致性能被高估,还常常遗漏重要的远端调控元件。为了攻克这些难题,来自比利时 VIB 计算生物学实验室、VIB - KU 鲁汶大脑与疾病研究中心以及 KU 鲁汶人类遗传学系的研究人员,对转录增强子的建模与设计展开了深入研究。他们的研究成果发表在《Nature Reviews Bioengineering》上,为基因调控研究开辟了新的道路。
研究人员采用了多种关键技术方法。在实验技术方面,利用大规模平行报告基因检测(massively parallel reporter assays,MPRAs),能够同时测试大量 DNA 序列的增强子活性,从而获取海量数据;还通过测量染色质可及性(chromatin accessibility)和组蛋白修饰等指标,间接了解增强子的活性。在计算模型构建上,运用传统机器学习技术和深度学习方法构建序列 - 功能模型(sequence - to - function models),这些模型可以根据 DNA 序列预测基因调控特征。同时,还引入生成式人工智能(generative artificial intelligence)技术用于设计合成增强子。

研究结果主要围绕以下几个方面:

  1. 序列 - 功能模型
    • 传统机器学习模型:早期研究尝试基于已知的 TFBSs 重建果蝇 eve 条纹 2 增强子,但因训练数据有限,对差异较大的序列预测效果不佳。后来,研究人员利用多个增强子的信息构建模型,如逻辑回归模型用于分类人类骨骼肌增强子,Lasso 回归模型识别心脏特异性增强子等。此外,热力学模型如 Gemstat 通过对果蝇胚胎中增强子和转录因子(TF)蛋白水平的拟合,揭示了 TF 之间的协同作用和短程抑制机制。
    • 深度神经网络:自 2010 年代中期以来,基于深度神经网络(DNNs)的序列 - 功能模型迅速发展。这类模型主要包括卷积神经网络(CNNs)、循环神经网络(RNNs)和 Transformer 等架构。根据预测任务和生物功能的不同,又可细分为预测单一细胞类型中单一模态的模型(如 DeepBind 预测 TF 结合亲和力、DeepSTARR 预测增强子活性)、预测多种细胞类型中单一模态的模型(如 DeepTopic 系列模型预测染色质可及性)以及预测多种生物条件下多种模态的模型(如 DeepSEA、Enformer 等预测 TF 结合、组蛋白修饰和染色质可及性等多种功能模态)。

  2. 设计增强子和启动子
    • 序列 - 功能模型作为神谕:DNN 序列 - 功能模型能够对未见数据进行泛化预测,可作为强大的生物 “神谕”。研究人员利用这些模型的预测结果,通过制定成本函数来优化 DNA 序列,设计合成增强子和启动子。在酵母、哺乳动物和果蝇细胞系以及更复杂的多细胞生物中,均成功设计出具有特定功能的合成增强子。这些实验不仅验证了模型的有效性,还揭示了增强子功能的一些基本规则,如 TFBSs 的组合、排列和亲和力对增强子活性的重要性。
    • 利用神谕的梯度设计增强子:由于 DNNs 具有可微性,研究人员尝试利用其梯度来设计增强子。通过对输入进行连续近似,采用梯度上升的方法调整 DNA 序列,以最大化模型输出。例如 Ledidi 方法通过这种方式设计序列编辑,改变特定转录因子的结合。然而,这种方法存在一些问题,如模型在连续近似输入上的性能无法保证,以及 Softmax 函数导致的梯度消失问题。为此,研究人员提出了 SeqProp 和 Fast SeqProp 等改进方法。
    • 生成式人工智能用于增强子设计:生成式人工智能为增强子设计提供了新的途径,包括生成对抗网络(GANs)、扩散模型、流匹配和自回归语言模型等。GANs 通过生成器和判别器的对抗训练来生成合成序列,但存在收敛困难和模式崩溃等问题。扩散模型通过学习对数据进行增量变换来生成新的增强子序列,为解决离散数据的应用问题,研究人员提出了多种改进方案,如 Dirichlet 扩散得分模型(DDSM)、BitDiffusion 等。流匹配模型通过学习数据的概率密度分布来生成样本,自回归语言模型则通过学习条件概率来设计具有特定活性的增强子。

  3. 评估合成增强子活性:评估合成增强子时,特异性和强度是两个重要方面。目前常用的评估方法包括荧光报告基因检测和 MPRAs,但这两种方法各有优缺点。未来可能会发展单细胞 MPRAs 和使用原代细胞来更全面地评估合成增强子的性能。

研究结论表明,通过合成增强子设计和实验验证,进一步明确了增强子活性的关键规则,如 TFBSs 的各种特征对增强子功能的决定性作用。这不仅有助于深入理解基因调控的机制,也为合成生物学和基因治疗等领域提供了重要的理论基础和技术支持。在基因治疗中,合成增强子可以精准驱动特定细胞类型的基因表达,有望提高治疗效果并减少副作用。然而,目前的研究仍面临一些挑战,如模型对复杂基因调控网络的模拟能力有待提高,实验验证的通量和准确性也需要进一步优化。未来,随着技术的不断进步和研究的深入,有望在增强子设计和基因调控研究方面取得更大的突破,为生命科学和医学领域带来更多的惊喜。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号