antiSMASH数据库v5发布:微生物次级代谢产物基因组挖掘的金标准工具升级

《Nucleic Acids Research》:The antiSMASH database version 5

【字体: 时间:2025年11月19日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本研究针对微生物次级代谢产物BGCs(生物合成基因簇)鉴定中基因组碎片化影响预测准确性的问题,开发了antiSMASH数据库第5版。通过优化L50值筛选标准与冗余去除算法,该版本整合了833个古菌、54,800个细菌和421个真菌基因组的497,429个BGCs区域,新增迭代型III NRPS(非核糖体肽合成酶)等检测规则,显著提升RiPPs(核糖体合成翻译后修饰肽)等化合物的预测能力,为天然药物开发提供全面数据支持。

  
在微生物世界的隐秘工厂中,数以万计的基因簇如同精密的生产线,源源不断地合成着具有抗菌、抗肿瘤等活性的特殊代谢产物。这些被称为“次级代谢产物”的化合物,不仅是青霉素、链霉素等经典药物的来源,更是新型抗生素研发的宝库。然而,如何从海量基因组数据中精准定位这些生产车间——生物合成基因簇(BGC),一直是困扰研究人员的难题。
传统的基因组挖掘工具如antiSMASH虽已成为行业金标准,但其单基因组分析模式难以满足跨物种比较的需求。更棘手的是,公共数据库中存在大量重复基因组和碎片化序列,前者导致数据冗余,后者则会割裂完整的BGC区域,严重影响预测准确性。例如,一个本应连续排列的聚酮合酶基因簇可能因基因组组装断裂而被误判为多个无关片段。
为解决这些挑战,丹麦技术大学与瓦赫宁根大学的研究团队在《Nucleic Acids Research》发表了antiSMASH数据库第5版。该研究通过创新性地采用L50值(覆盖半数基因组所需的最少contig数)替代传统contig计数法进行质量过滤,有效规避了质粒等小片段对组装质量的干扰。同时引入加权评分算法选择代表性基因组,避免了基因组简化突变体取代野生型的问题。经过严格筛选,最终纳入55,054个高质量微生物基因组,利用antiSMASH 8.1检测出近50万个BGC区域,较上一版本实现数据量翻倍。
关键技术方法包括:从NCBI RefSeq下载1,826个基因组数据,基于L50值(古菌/细菌≤10,真菌≤60)和Mash距离≤0.04进行质控去重;采用双轮antiSMASH分析流程,首轮检测BGCs与RiPP前体,次轮构建CompaRiPPson和ClusterBlast跨参考数据集;更新SQL数据库架构支持新注释类型,并整合DSMZ等菌种保藏中心的可获取菌株信息。
基因组筛选与质量控制
研究团队从NCBI RefSeq获取的原始数据集包含1267个古菌、182,383个细菌和441个真菌基因组。通过创新性使用L50值作为组装完整度指标,有效识别并保留了含有大型质粒或重复序列的高质量基因组。最终筛选出的833个古菌、54,800个细菌和421个真菌基因组中,有36个真菌基因组因存在剪接变异导致的重复CDS(编码序列)而被特殊处理,确保每个CDS具有唯一标识符。
新型BGC检测规则的实现
antiSMASH 8.1新增了对迭代型III NRPS(非核糖体肽合成酶)和腺苷衍生物两类BGC的检测能力。如图1所示,在Amycolatopsis umgeniensis基因组中成功识别出不含缩合域的非典型NRPS基因簇,其侧翼的SARP(链霉菌抗生素调控蛋白)调控基因进一步佐证了该区域的生物合成功能。
数据库功能升级
新版本增加了结果表格导出功能,用户可直接下载BLAST式序列比对结果。如图2A所示,针对nisin样RiPP前体的CompaRiPPson搜索结果可通过TSV格式导出。同时与DSMZ等菌种保藏中心合作,新增可获取菌株标识功能(图2B),极大便利了实验验证环节的菌株获取。
数据规模显著扩展
与第4版相比,BGC区域数量从231,534个增至497,429个,增长率达107%;RiPP前体肽数据库CompaRiPPson从16,533条序列扩展至34,401条。这种增长不仅体现在数量上,更体现在物种覆盖广度上,如古菌基因组数量实现翻倍,极大拓展了极端环境微生物的代谢物挖掘潜力。
该研究通过系统性的数据质控和算法优化,建立了目前最全面的微生物次级代谢物BGC数据库。其创新性体现在三个方面:首先,L50值筛选标准有效解决了碎片化基因组导致的BGC断裂问题;其次,加权评分算法避免了代表性基因组选择的偏差;最后,可获取菌株标识功能搭建了生物信息学预测与实验验证的桥梁。这些改进使得数据库不仅能服务于传统天然产物发现,还可支撑合成生物学中的途径重构与优化研究。随着微生物基因组数据的持续增长,这种高质量、去冗余的数据库架构将为领域发展提供持久动力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号