编辑推荐:
本文通过机器学习分析白色黄链霉菌转录组,揭示其转录调控网络,助力微生物研究。
一、引言
白色黄链霉菌(Streptomyces albidoflavus)在天然产物发现和生产领域占据重要地位,常被用作异源生物合成基因簇(BGCs)的宿主。其能产生多种次生代谢产物,这些产物由 BGCs 编码,但许多 BGCs 在实验室条件下并不表达。深入了解 BGCs 的调控机制,有助于激活更多 BGCs,发现新型化合物。
次生代谢产物的合成受转录调控网络(TRN)的控制。Streptomyces属细菌基因组较大,基因调控复杂,而白色黄链霉菌基因组相对较小,约 6.8 Mbp,含有约 23 个内源性 BGCs 以及大量的基因组调控因子,这给传统自下而上研究 TRN 的方法带来挑战。
独立成分分析(ICA)作为一种强大的无监督机器学习方法,可自上而下地研究 TRN。它能将基因表达数据分解为独立调控的基因集(iModulons)及其在不同条件下的活性谱,已在多种细菌物种中成功应用,为研究微生物转录调控提供了新途径。本研究运用 ICA 技术,对白色黄链霉菌的 TRN 展开深入探究。
二、研究方法
- 实验菌株与培养条件:研究以白色黄链霉菌 J1074 为主要对象,该菌株保存在实验室,使用前于 - 80°C 保存。通过 Biolog 表型微阵列筛选多种生长条件,包括不同的压力源、基因组修饰和营养源,以确定最有利于菌株生长和激活代谢途径的条件。在此基础上,培养菌株并进行后续实验。
- RNA 提取与文库制备:依据 Biolog 微阵列实验结果,选取合适条件培养白色黄链霉菌,从 211 个样本(每个样本至少有一个生物学重复)中提取 RNA。这些样本涵盖 83 种独特生长条件,如不同碳源的补充基本培养基、盐度、pH 和温度胁迫、基因组减少菌株(删除多达 10 个内源性 BGCs)以及异源表达放线紫红素 BGC 等。使用 RNeasy Mini QIAcube 试剂盒提取总 RNA,经 DNase I 处理后,进行 rRNA 纯化、文库制备,并利用 Illumina NovaSeq 6000 进行 RNA 测序。
- 数据处理与分析:RNA 测序数据经 Trim Galore 和 FastQC 进行读段修剪和质量控制,使用 Bowtie 将读段比对到白色黄链霉菌参考基因组,通过 RSeQC 推断读段方向,用 featureCounts 生成读段计数,最后利用 MultiQC 整合质量控制指标。经过严格的质量筛选,去除不符合质量标准的样本,最终得到 218 个高质量表达谱,包括本研究生成的 161 个和从 NCBI-SRA 收集的 57 个。对这些数据进行 ICA 分析,采用 scikit-learn 中的 FastICA 算法,运行 100 次并设置随机种子和收敛容差,通过 DBSCAN 聚类确定稳健的 ICs,选择 190 个维度生成最稳健的 iModulons。
- 跨物种 iModulon 比较:为了深入了解白色黄链霉菌 iModulons 的特征,研究选取了包括Escherichia coli、Salmonella enterica等在内的七个物种进行跨物种比较。利用 Orthofinder 确定这些物种间的直系同源基因,下载 iModulon 数据文件并根据直系同源组合并基因权重文件。通过计算余弦相似度并使用 Cytoscape 进行可视化,利用 MCL 聚类算法识别 iModulon 簇,构建 iModulome,从而比较不同物种 iModulons 的基因内容。
- iModulons 的特征分析:借助 PyModulon Python 包对 iModulons 进行特征分析,采用 k - 均值聚类确定组件特异性阈值,并根据实际情况手动调整部分阈值,以提高对 iModulons 基因内容的解释力。从公共数据库、文献以及与其他物种 iModulons 的相似性等方面对 iModulons 进行注释。利用 antiSMASH 注释 BGC 区域,使用 MEME 识别富集的 DNA 结合基序,相关代码保存在 github 上。
三、研究结果
- 独立成分分析揭示 78 个 iModulons:通过 ICA 分析,研究共鉴定出 78 个 iModulons,这些 iModulons 涵盖了 48.4% 的基因,解释了基因表达中 80.2% 的方差。它们涉及多种功能,如次生代谢(21.8%)、碳代谢(15.4%)、应激反应(7.7%)等,还有部分功能未被表征(11.5%)。研究人员将每个 iModulon 的信息以交互式仪表板的形式发布在imodulondb.org上,方便科研人员查询和浏览。
- 跨物种 iModulon 比较助力新 iModulons 的表征:在构建的 iModulome 中,94.9% 的白色黄链霉菌 iModulons 能与其他物种的 iModulons 聚类,便于比较和表征其基因内容。例如,翻译相关的 iModulon 簇在不同物种间具有较高的相似性,主要基于 22 个编码保守核糖体亚基的核心基因;而磷酸盐相关的 iModulon 簇中,虽然核心基因与pstSCAB和PhoPR系统相关,但共表达基因存在差异,暗示了不同物种在磷酸盐相关条件下基因表达的特异性适应。
- iModulons 为 BGCs 的调控和激活提供见解:在白色黄链霉菌预测的 23 个 BGC 区域中,12 个的核心生物合成基因属于 16 个 iModulons。iModulons 不仅展示了核心生物合成基因在不同生长条件下的表达情况,还揭示了其共调控基因,包括 BGC 区域内外的假定调节因子、氨基酸转运蛋白和细胞色素 P450 酶等。此外,在 BGC 相关 iModulons 的操纵子上游检测到富集的 DNA 结合基序,进一步表明了基因的共调控关系。
- 对 surugamide 调控的深入了解:研究发现了三个包含 surugamide 核心生物合成基因的 iModulons,分别为 surugamide、surugamide repressor 和 surugamide F。其中,surugamide F 可能是部分 BGC 缺失的产物。surugamide iModulon 包含来自预测 BGC 区域的多个基因,以及与氨基酸转运和代谢相关的基因和细胞色素 P450 基因。surugamide repressor iModulon 则含有已知的调节因子surR和一个未描述的surR-like 基因,二者表达模式相似,但它们与surABCD操纵子的基因无显著相关性,表明可能存在其他调控 surugamide BGC 的因子。
- 两个 NRPS BGCs 共调控基因簇的鉴定:minimycin/dudomycin iModulon 包含两个 NRPS BGCs(minimycin 和 dudomycin-like)的核心生物合成基因,该 iModulon 在盐度胁迫下下调。除这两个 BGCs 外,还包含两个额外的基因簇,分别涉及氨基酸转运和一些与生物合成相关的基因,这些基因簇可能对 minimycin 和 dudomycin-like 的生物合成和运输至关重要。此外,涉及这些 NRPS BGCs 的 iModulons 与其他物种铁限制相关的 iModulons 聚类,核心基因与E. coli中参与肠杆菌素生物合成途径的基因同源。
- 未表征 iModulons 为发现新功能提供线索:在分析与 paulomycin 相关的 iModulon 时,研究人员发现了一个位于 paulomycin BGC 下游 1.8 Mbp 处的基因簇,该基因簇包含一个假定的 GntR 家族转录因子和三个未表征基因,组成了一个新的未表征 iModulon(UC-6)。UC-6 的上调似乎在特定条件下会降低 paulomycin BGC 的表达。研究中 40% 的未表征基因存在于至少一个 iModulon 中,为后续验证基因功能提供了方向。
- 揭示白色黄链霉菌的 sigma 因子调控网络:研究在白色黄链霉菌基因组中鉴定出 31 个 sigma 因子、11 个 anti-sigma 因子和 3 个 anti-anti-sigma 因子,其中 17 个是至少一个 iModulon 的组成部分,23 个与 iModulon 活性显著相关。通过网络分析发现,一些 sigma 因子,如组 1 初级 sigma 因子hrdD和hrdA,以及部分组 4 sigma 因子,如 XNR_RS17485、XNR_RS14850(sigT)和 XNR_RS19540,与多个 iModulons 显著相关,暗示它们可能具有全局调控作用,值得进一步研究。
四、讨论
- iModulons 对研究白色黄链霉菌转录调控网络的意义:本研究利用 ICA 技术,从系统层面揭示了白色黄链霉菌的转录组和复杂的 TRN。通过 iModulons 的发现,研究人员了解到 BGCs 与周围基因簇的共调控关系、潜在的调节因子以及大量未表征基因,这些发现为后续研究提供了丰富的靶点。此外,iModulon 知识库可随新 RNA-seq 数据的增加而更新,有助于更深入地研究 TRN。
- iModulome 在进化研究中的价值:构建的 iModulome 为 iModulons 的研究提供了进化背景。通过跨物种比较,不仅有助于注释白色黄链霉菌的 iModulons,还可能开启 “泛模块组” 这一新兴研究领域,揭示 TRN 的保守和谱系特异性特征。虽然本研究未深入探讨这一领域,但研究结果表明其方法具有广泛适用性,有望应用于其他非模式生物,加深对微生物基因调控的理解。
- iModulons 对解析次生代谢调控机制的作用:iModulons 涵盖了白色黄链霉菌基因组中一半以上的预测内源性 BGCs,详细展示了它们在不同生长条件下的转录调控情况。研究发现了与 BGCs 相关的共调控基因和基因簇,以及 BGC 相关 iModulons 与铁依赖途径的关联,这为揭示 BGC 表达的调控机制,尤其是与金属离子稳态的关系提供了重要线索。同时,这些发现有助于优化菌株设计,促进 BGC 在其他生物中的移植,并为寻找新的启动子以提高生产产量提供了方向。
- iModulons 在推断未表征基因功能方面的潜力:白色黄链霉菌基因组中约 30% 的基因功能未知或未经验证,本研究通过 iModulons 为 40% 缺乏 COG 注释的基因推断了潜在功能,为实验验证提供了有前景的靶点。许多与 BGCs 相关的 iModulons 包含功能未知的共调控基因,这些基因可能是生物合成的必要组成部分,iModulons 为研究这些基因的功能提供了路线图。
- sigma 因子在 iModulons 调控中的潜在作用:研究揭示了 sigma 因子与 iModulons 之间的复杂调控关系,多个 sigma 因子与 iModulons 显著相关,尤其是一些在其他物种中已被证明具有重要调控作用的 sigma 因子,如sigT的同源物。此外,在 iModulons 内操纵子上游发现的富集 DNA 结合基序,为进一步研究 sigma 因子与靶基因的直接相互作用提供了基础,有助于深入理解 BGCs 的动态调控,为优化次生代谢产物生产开辟新途径。
- 研究的局限性与展望:尽管本研究取得了重要成果,但仍存在一定局限性。ICA 依赖特定生长条件激活基因集,无法模块化所有基因,部分基因未被纳入 iModulons,表明还有更多生长条件有待测试。此外,对调控子信息的缺乏限制了对白色黄链霉菌 iModulons 的全面表征,需要更多实验研究来完善对 TRN 的理解。虽然本研究展示了 BGCs 的转录激活,但还需代谢研究来确认相应代谢产物的产生和分泌。未来研究可针对这些不足展开,进一步深入探索白色黄链霉菌的转录调控机制。
五、资源可用性
- 主要联系人:如有进一步的信息和资源需求,可联系主要联系人 Emre ?zdemir(emoz@biosustain.dtu.dk)。
- 材料可用性:本研究中产生的菌株可应要求提供,若涉及商业应用,可能需要签署材料转移协议。
- 数据和代码可用性:RNA-seq 原始数据已存入 NCBI 的 BioProject(PRJNA1062162),自发表之日起公开可用。所有原始代码已存入 GitHub(https://github.com/biosustain/salb_imodulons)和 Zenodo(https://doi.org/10.5281/zenodo.14215459),如需重新分析数据所需的其他信息,可向主要联系人索取。
六、总结
本研究运用机器学习方法 ICA,对白色黄链霉菌的转录组进行深入分析,成功鉴定出 78 个 iModulons。这些 iModulons 为研究白色黄链霉菌的转录调控网络、BGCs 的调控机制以及未表征基因的功能提供了重要线索。通过跨物种比较构建的 iModulome,为 iModulons 的研究提供了进化视角。尽管研究存在一定局限性,但这些发现为微生物基因调控研究奠定了基础,有望推动白色黄链霉菌及其他相关微生物在天然产物生产和生物技术领域的应用发展。未来,随着研究的不断深入,有望进一步揭示白色黄链霉菌转录调控的奥秘,实现更高效的微生物细胞工厂构建和生物制造。