编辑推荐:
在大肠杆菌(Escherichia coli)研究中,多数转录因子(TFs)的 DNA 结合情况未被全面解析且缺乏定量预测模型。研究人员开展了大肠杆菌 TFs 的体内 DNA 结合图谱绘制及建模研究,利用 ChIP-Seq 和 BoltzNet 神经网络得出多种成果,为 TF-DNA 结合研究提供新范式。
在生命科学的微观世界里,大肠杆菌(
Escherichia coli)作为生物学和生物技术领域的 “明星选手”,一直备受关注。它不仅是研究最为透彻的原核生物模型,更是合成生物学的重要基石。然而,即便对其了解众多,仍存在不少谜团。就拿转录因子(Transcription Factors,TFs)来说,细菌通常编码数百种 TFs,它们与 DNA 的结合对基因调控起着关键作用 。但在大肠杆菌约 300 种 TFs 中,大多数的结合亲和力并未得到全面测绘,很多 TFs 甚至连一个已知的结合序列都没有,更别提能用实验验证的生物物理模型来定量理解其结合行为了。而深入了解 TFs 与 DNA 的结合机制,对于解读细胞功能和设计合成生物学电路至关重要。
为了攻克这些难题,来自波士顿大学(Boston University)等多个研究机构的研究人员展开了深入研究。他们的研究成果发表在《Nature Communications》上,为该领域带来了新的曙光。
研究人员运用了多种关键技术方法。首先是染色质免疫沉淀测序(Chromatin Immunoprecipitation Sequencing,ChIP-Seq)技术,通过该技术对大肠杆菌 TFs 的体内 DNA 结合情况进行大规模测绘。同时,他们开发了一种新型卷积神经网络(Convolutional Neural Network ,CNN)——BoltzNet,用于预测 TF 结合亲和力和 ChIP-Seq 覆盖度。
下面来看看具体的研究结果:
- 大规模绘制 TF 结合位点:研究人员开发了标准化的 ChIP-Seq 实验方案,对 318 个预测的大肠杆菌 TFs 进行研究,最终获得了 139 个 TFs 的高可信度全球结合图谱数据。这些结合区域在基因起始位点上游 150bp 和下游 50bp 处高度富集,且结合区域的数量在不同 TFs 之间差异巨大 。
- BoltzNet 架构与训练:BoltzNet 基于 TF-DNA 结合和 ChIP-Seq 的两阶段定量生物物理模型设计,由卷积层和全连接神经网络组成。它通过对特定序列集的训练,学习到了 TF-DNA 结合的热力学模型以及从亲和力到 ChIP-Seq 覆盖度的映射关系12。
- BoltzNet 准确模拟序列结合强度:以 PdhR 为例,BoltzNet 在所有实验中都能准确预测富集情况,在基因组范围内表现出高特异性,并且通过留一法交叉验证展示了良好的泛化能力34。
- BoltzNet 在全基因组范围内具有可解释性和可验证性:BoltzNet 的准确性源于单个权重矩阵,该矩阵直接表示每个碱基对结合位点的相对贡献,能够在核苷酸分辨率下对结合位点进行精确预测56。
- BoltzNet 模拟不同 ChIP 实验的预期行为:BoltzNet 能够学习不同 ChIP 实验中由于蛋白质浓度等因素导致的覆盖度变化,准确模拟不同实验条件下的结合情况78。
- TF 结合模型汇总:研究人员为 124 个 TFs 生成了 BoltzNet 模型,这些模型涵盖了不同 TFs 的多种结合行为,包括结合位点的分布、AT 含量以及与不同 σ 因子的关联等910。
- 聚类结合位点和辅助碱基的作用:研究发现,许多序列包含多个预测的非重叠结合位点,聚类位点可增强结合亲和力;同时,辅助碱基在决定结合强度方面也起着重要作用1112。
- 新型结合位点的设计与验证:通过设计新型结合位点并进行实验验证,证实了 BoltzNet 的预测能力以及辅助碱基的重要性1314。
- BoltzNet 准确预测结合能:利用生物层干涉技术(Biolayer Interferometry,BLI)对蛋白质 - DNA 相互作用进行检测,结果表明 BoltzNet 能够准确预测不同结合位点强度和配置的相对结合能1516。
- 富集差异反映生理相关的结合能差异:研究揭示了 ChIP-Seq 覆盖度的变化与结合能差异之间的关系,表明弱结合位点在生理上具有重要意义1718。
- 转录因子主要非特异性结合基因组:研究发现多数 TFs 与基因组存在大量非特异性结合,这对基因调控具有重要功能意义194。
- BoltzNet 模型对超参数和输入数据具有稳健性:研究表明 BoltzNet 模型对超参数和输入数据的变化具有较好的稳定性,在不同条件下都能保持较高的准确性2021。
- BoltzNet 性能优于现有工具:与其他六种工具对比,BoltzNet 在预测结合能和结合位点方面表现更优2223。
在研究结论和讨论部分,研究人员通过绘制 139 种大肠杆菌 TFs 的体内 DNA 结合图谱,并利用 BoltzNet 神经网络进行分析,为转录因子 - DNA 结合研究提供了新的范式。BoltzNet 作为连接高通量基因组学和详细生物物理学的桥梁,避免了黑箱神经网络的过参数化和可解释性问题 。同时,该研究强调了弱结合位点在理解 TF-DNA 相互作用特异性中的重要性,还对 TFs 在细胞内的定位问题提供了新的见解。不过,研究也存在一定局限性,如仍有 179 个 TFs 未能生成合格的 ChIP-Seq 实验数据。但研究人员预计,未来对这些 TFs 的进一步研究将完善大肠杆菌 TF 结合能的全貌。总体而言,这项研究成果为深入理解原核生物 TF-DNA 相互作用奠定了坚实基础,也为后续相关研究开辟了新的方向。