编辑推荐:
为解决细菌微蛋白研究匮乏的问题,美国国立卫生研究院的研究人员开展了细菌微蛋白质组的研究,预测出大量微蛋白家族并解析其特征。该研究成果为后续研究提供重要资源,强烈推荐科研人员阅读。
在神秘的微生物世界里,细菌就像一群隐藏着无数秘密的小生命。在它们的基因组中,有一些小小的 “神秘区域”—— 小开放阅读框(smORFs,Small Open Reading Frames),这些区域编码着微蛋白(microproteins) ,然而,它们却一直是基因组研究中的 “暗物质”,充满了未知。
一直以来,由于计算基因预测技术存在局限,smORFs 的注释少之又少,研究更是匮乏。尽管在各种生物中都发现了翻译后的 smORFs,但要区分它们是功能性翻译产物还是翻译噪音,简直就像在茫茫大海里捞针一样困难。虽然在动物、植物、真菌和细菌等生物中,已经对一些微蛋白的功能有所了解,而且人类也有了一个经过核糖体图谱(Ribo-seq)验证的 smORFs 标准目录,但对于原核生物 smORFs 的系统分析却少得可怜。
此外,新基因的产生在微蛋白的出现过程中起着重要作用,可我们对这一过程在细菌微蛋白质组动态变化中的影响和程度,几乎一无所知。而且,之前研究细菌和噬菌体微蛋白的方法也有局限性,比如依赖特定的小蛋白家族,这就像戴着有色眼镜看世界,限制了我们发现更多微蛋白的可能性。在这样的背景下,为了揭开细菌微蛋白的神秘面纱,美国国立卫生研究院的 Igor Fesenko 等人在《Molecular Cell》期刊上发表了题为 “The hidden bacterial microproteome” 的论文 。他们的研究发现了大量细菌微蛋白家族,还为后续研究提供了丰富的资源和有力工具,这对于深入了解细菌的奥秘意义非凡。
在这项研究中,研究人员主要运用了以下几种关键技术方法:通过生物信息学分析,从 5668 个肠杆菌科细菌基因组中提取基因间序列(IGRs),预测其中的 smORFs;利用 RNA 测序(RNA-seq)和核糖体测序(Ribo-seq)技术,对 smORFs 的转录和翻译情况进行分析;借助 AlphaFold2 等工具预测微蛋白的结构、寡聚化状态以及与其他蛋白的相互作用。
下面,让我们一起深入了解一下他们的研究结果。
微蛋白的预测
研究人员没有采用以往的研究套路,而是另辟蹊径,分析了所有预测的 15 - 70 个密码子的基因间 ORFs。他们用 RNAcode 和 EvolScore 两种方法评估这些 ORFs 的编码潜力,就像用两把不同的尺子去衡量一样,然后取两者预测结果的并集。从 23 个肠杆菌属的 5668 个细菌基因组中,他们挑选出 17,056,700 个 IGRs 进行深入研究。这些 IGRs 的 GC 含量比编码序列低,这一特点就像是微蛋白的 “生长土壤”,有利于疏水微蛋白的形成。研究人员还发现,预测的微蛋白中位数长度为 27 个氨基酸,比注释的小蛋白更短、更疏水。
预测微蛋白的家族
为了找到那些可能具有功能的微蛋白,研究人员以进化选择作为判断依据。他们把推测的微蛋白按照序列相似性进行聚类,结果得到了 947,440 个簇,每个簇至少包含三个序列。在预测编码的微蛋白时,RNAcode 和 EvolScore 两种方法各有优劣,于是他们把这两种方法结合起来,再加上基因组共线性分析和已发表的实验数据对比,最终预测出 4.3% 的微蛋白簇具有编码功能。这个预测结果可不是随便得出的,研究人员还训练了一个随机森林算法模型进行验证,这个模型的预测能力超强,准确率高达 0.948,召回率也能达到 0.9。他们把用至少一种方法鉴定出的编码微蛋白簇命名为 Entero67K,还创建了一个交互式 Colab 笔记本资源,方便大家探索这些微蛋白的各种信息,这就好比为研究人员打开了一扇了解微蛋白世界的窗户。
ismORF 与相邻基因的共线性
研究人员接着探索了 Entero67K 中的 ismORFs 在肠杆菌基因组的共线性区域的分布情况。他们使用 SibelliaZ 工具进行共线性分析,发现平均每个共线性 IGR 块(Syn-IGSs)包含 1.4 个微蛋白簇,这说明大多数 IGRs 里只有一个具有预测编码潜力的 ismORF。而且,只有 30% 的 Entero67K 微蛋白是由 Syn-IGSs 编码的,很多 Syn-IGSs 里都没有完整的 ismORF。这一结果表明,很多 ismORFs 是在细菌物种分化后,从非编码序列中进化出来的,就像一个个新生的小生命,在进化的舞台上不断涌现和变化。
ismORF 的转录和翻译
研究人员重新分析了 71 个公开的肠杆菌转录组数据,发现大约 50% 的 ismORFs 的转录水平(TPM 值)大于 1,并且能被 reads 完全覆盖。不过,ismORF 的转录水平明显低于注释的小基因,这意味着大多数微蛋白可能是由进化上较年轻的基因编码的,它们就像一群 “年轻的士兵”,随时准备在特定条件下发挥作用。在大肠杆菌和鼠伤寒沙门氏菌中,研究人员通过重新分析 Ribo-seq 数据集发现,虽然只有 6.5% 的 ismORFs 有翻译证据,但这也证明了一些微蛋白确实在 “悄悄” 地被翻译出来。此外,他们还通过质谱分析在蛋白质组水平上验证了部分 ismORF 的翻译,不过由于微蛋白太小,翻译水平又低,要检测到它们可不容易,就像在一堆沙子里找小珍珠一样困难。
选定微蛋白的实验验证
为了进一步证实微蛋白的存在,研究人员挑选了 16 个预测的大肠杆菌微蛋白进行实验验证。他们在这些微蛋白的编码基因上游整合了一个顺序肽亲和(SPA)标签,就像给微蛋白贴上了一个 “小标签”,方便追踪它们的踪迹。结果发现,在指数生长期或稳定期的细胞中,有 11 个标记的微蛋白被检测到了。而且,有些微蛋白的产生水平还会根据生长条件的变化而改变,比如 ORF.18101 在指数生长期的产生水平比稳定期高,这就像微蛋白们会根据环境的变化来调整自己的 “工作节奏”。
ismORF 的进化保守性
大多数功能性细菌小蛋白只在有限的生物中保守,而微蛋白家族的保守性研究更是困难重重,因为它们的编码序列短,很多还具有疏水性,容易出现假的序列相似性,注释也不统一。研究人员通过 HHsuite 进行敏感的序列比对分析发现,只有约 13% 的 Entero67K 簇在其他属中有同源物,这表明绝大多数预测的微蛋白是谱系特异性的,它们就像每个细菌家族特有的 “小秘密”,只在自己的家族里发挥独特的作用。
ismORF 基因组背景的保守性
研究人员还发现,Entero67K ismORFs 经常与注释为 “转运蛋白”“转录调节因子” 或 “假设蛋白” 的基因同时出现,而且它们在转运蛋白基因附近出现的频率比随机出现的频率更高。这就好像微蛋白和这些基因之间有着某种特殊的 “默契”,可能在共同完成一些重要的生物学功能。此外,ismORFs 与上下游基因的排列方向也有一定的规律,这些规律可能有助于微蛋白的表达和产生。
微蛋白功能的预测
研究人员用 InterProscan 对微蛋白和小蛋白进行注释,发现 99.99% 的 Entero67K 簇没有被指定任何蛋白结构域,这让微蛋白的功能显得更加神秘。不过,他们发现 Entero67K 微蛋白比注释的小蛋白更疏水,虽然只有 5% 的微蛋白含有预测的跨膜结构域,但在长度超过 30 个氨基酸的微蛋白中,这个比例达到了 15%。而且,他们还预测出 2,168 个 Entero67K 簇是分泌型微蛋白,这些微蛋白可能参与细胞间的通信,就像细胞之间的 “小信使”,传递着重要的信息。
微蛋白结构的预测
利用 AlphaFold2,研究人员预测了微蛋白的结构。由于微蛋白体积小,大多数预测结构只包含少量的二级结构元素,常见的是单个 α 螺旋或 β/α 发夹结构。不过,也有一些微蛋白的结构比较复杂,比如有些微蛋白能形成类似 SH3 结构域或独特的 β - 桶状折叠结构。这就好像在微蛋白的世界里,虽然大部分是简单的 “小建筑”,但也有一些别具一格的 “复杂城堡”。
微蛋白寡聚化的预测
微蛋白可以通过同源寡聚化来稳定自身结构,增加结构和功能的复杂性。研究人员预测,18% 的微蛋白结构会形成同源寡聚体,而且还发现了一些特殊的寡聚化机制,比如半胱氨酸可以形成二硫键或配位金属离子,β - 发夹可以形成 β - 桶状结构等。这些预测结果为蛋白质折叠进化提供了新的思路,就像为研究蛋白质的进化历程点亮了一盏明灯。
微蛋白相互作用的预测
大多数微蛋白的细胞功能可能是通过与其他蛋白质相互作用来调节其功能。研究人员利用 AlphaFold Multimer 预测了微蛋白与其他蛋白质的相互作用,虽然只预测了有限数量的微蛋白与相邻基因编码蛋白质的相互作用,但也发现了一些有趣的现象。例如,过表达 ORF.3078 会导致 YbhL 的水平下降,这表明微蛋白可能会影响较大膜蛋白的稳定性,它们之间的相互作用就像一场微妙的 “舞蹈”,共同维持着细胞的正常运转。
总的来说,这项研究通过多种方法,全面地预测了 IGR 编码的细菌微蛋白质组,发现了大量潜在的微蛋白,还对它们的转录、翻译、进化、结构和功能进行了深入研究。虽然研究存在一定的局限性,比如分析成本高,研究范围只局限于肠杆菌科等,但它为我们打开了细菌微蛋白研究的大门,让我们看到了这个隐藏世界的冰山一角。这些发现强烈暗示了细菌隐藏微蛋白质组的存在及其功能的重要性,为后续研究其他细菌家族的微蛋白提供了模板,也为研究细菌微蛋白质组提供了丰富的资源。未来,科学家们可以利用这些数据,进一步探索微蛋白的奥秘,了解它们在细菌生命活动中的具体作用,这对于深入理解细菌的生物学特性、开发新的抗菌策略等都有着重要的意义。说不定在未来的某一天,我们能利用这些小小的微蛋白,解决大问题呢!