sORFdb:解锁细菌小蛋白密码的宝藏数据库

【字体: 时间:2025年02月10日 来源:BMC Genomics 3.5

编辑推荐:

  在细菌研究中,小蛋白(≤100 氨基酸,AA)长期被忽视。研究人员开展 “sORFdb – a database for sORFs, small proteins, and small protein families in bacteria” 的研究,创建 sORFdb 数据库。该数据库有助于小蛋白相关研究,推动细菌基因功能探索。

  在细菌的微观世界里,蛋白质就像一群各司其职的 “小工匠”,共同维持着细菌的生命活动。长久以来,科学家们对那些个头较大、功能明显的蛋白质关注有加,却常常忽视了一类特殊的 “小工匠”—— 小蛋白(Small proteins)。这类小蛋白由短开放阅读框(Short open reading frames,sORF)编码,长度通常在 100 个氨基酸(AA)以下,甚至很多不足 50 个 AA。它们虽然个头小,但却蕴含着巨大的能量,在细菌的生存、繁衍中发挥着不可或缺的作用。
早期,受实验室技术和基因预测工具的限制,小蛋白的研究困难重重。基因预测工具在面对小蛋白时,常常 “力不从心”,假阳性率居高不下。这就好比在一堆沙子里找金子,却误把很多沙粒当成了金子。为了减少错误,基因组数据库不得不设置严格的长度限制,许多可能有价值的小蛋白就这样被 “拒之门外”。即便随着核糖体分析(Ribosome profiling)和质谱技术的发展,越来越多的小蛋白被发现,但它们在公共数据库中仍然 “踪迹难寻”,功能注释也严重不足。

为了打破这些困境,来自德国吉森尤斯图斯?李比希大学(Justus Liebig University Giessen)生物信息学和系统生物学系等机构的研究人员展开了深入研究。他们致力于创建一个全面、专业的数据库,为小蛋白的研究提供有力支持。最终,sORFdb 数据库应运而生,相关研究成果发表在《BMC Genomics》杂志上。

研究人员为了构建 sORFdb 数据库,运用了多种关键技术方法。首先,他们从 GenBank、Swiss - Prot、UniProt 和 SmProt 等多个公共数据源获取基因组和蛋白质序列。接着,利用 PyHMMER、Pyrodigal 等软件对序列进行筛选和处理,过滤掉假阳性的小蛋白,同时检测 sORF 的核糖体结合位点(Ribosomal binding site,RBS)。在研究小蛋白家族时,采用了自定义的基于图的聚类方法,并结合马尔可夫聚类(Markov clustering,MCL)算法,成功识别出众多小蛋白家族。

下面来看看具体的研究结果:

  • 大规模收集小蛋白:研究人员从公共数据库收集到海量的 sORF 和小蛋白序列,经过一系列严格的筛选步骤,最终 sORFdb 数据库收录了 5,073,415 条非冗余小蛋白序列和 5,640,450 条非冗余 sORF 序列。与其他数据库相比,sORFdb 在短长度小蛋白的收录上表现更为出色,尤其是长度小于 50 AA 的小蛋白。
  • 分类学分布:分析发现,sORFdb 数据库中,临床相关物种和模式生物来源的小蛋白占比过高,如假单胞菌门(Pseudomonadota)的小蛋白数量较多。不过,非冗余小蛋白的分类学分布相对更为均衡,这表明 sORFdb 涵盖了广泛的细菌种类。
  • sORF 与长基因的遗传特性差异:随着 sORF 长度的减小,非规范起始密码子的使用频率增加。在长度为 20 AA 及以下的 sORF 中,非规范起始密码子的比例明显高于长序列 sORF。同时,sORF 长度越小,RBS 的检测率越低,10 AA 及以下的 sORF 几乎检测不到 RBS。
  • 小蛋白的功能:通过对小蛋白进行功能注释和 Pfam 数据库查询,发现大部分小蛋白是核糖体结构蛋白,此外,调节蛋白、应激反应蛋白和毒素 - 抗毒素系统等也占比较大。长度在 50 AA 及以下的小蛋白,功能多与螺旋 - 转角 - 螺旋转录调节因子、膜相关蛋白等有关。
  • 细菌小蛋白家族:研究人员利用自定义聚类方法,成功识别出 8,884 个小蛋白家族。这些家族中,成员长度多集中在 40 - 50 AA 和 30 AA 左右。多数家族能够通过多数投票法进行功能注释,且功能与文献报道相符。
  • sORFdb 的交互式网络访问:研究团队开发了一个用户友好的交互式网站,为科研人员提供了序列搜索、家族搜索、浏览等多种功能,方便他们获取数据库中的各类信息,包括 sORF、小蛋白、小蛋白家族及相关数据。

在研究结论和讨论部分,sORFdb 的优势十分显著。它整合了多个数据源,提供了丰富的小蛋白和 sORF 序列,还包含 RBS 使用信息和理化性质等内容。同时,定义了小蛋白家族,有助于小蛋白的识别和注释。不过,该研究也存在一些局限性。例如,数据库中分类学分布存在一定偏差,识别小蛋白的方法还不够完善,需要结合更多手段进行综合判断。此外,对于一些长度较短、功能未知的小蛋白,还需要进一步研究。

总体而言,sORFdb 为细菌小蛋白的研究开辟了新的道路,它让科学家们能够更系统、深入地探索小蛋白的奥秘。尽管目前还存在一些不足,但随着研究的不断深入和技术的持续进步,sORFdb 有望在未来的细菌研究中发挥更大的作用,为我们揭示更多细菌生命活动的秘密。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号