proGenomes4:为微生物组学研究提供200万高质量原核基因组的一致注释资源

《Nucleic Acids Research》:proGenomes4: providing 2 million accurately and consistently annotated high-quality prokaryotic genomes

【字体: 时间:2025年11月21日 来源:Nucleic Acids Research 13.1

编辑推荐:

  随着公共微生物基因组数据的爆炸式增长,如何确保数据质量与注释一致性已成为微生物学研究的核心挑战。为此,研究人员开发了proGenomes4数据库,整合了近200万个高质量原核基因组,并采用CheckM2、GUNC等工具进行严格质控,通过eggNOG-mapper、proMGE、GECCO等流程系统注释了超过70亿个基因的功能、移动遗传元件(MGEs)及生物合成基因簇(BGCs)。该资源首次实现了基因组规模与注释深度的双重突破,为大规模比较基因组学、微生物生态及进化研究提供了标准化数据基础,有力支撑了微生物资源挖掘与跨学科研究。

  
在微生物学研究领域,海量基因组数据的涌现如同一把双刃剑。自30年前首个微生物基因组测序完成以来,测序技术的飞速发展使得公开数据库中的微生物基因组数量呈指数级增长。然而,这些数据来源分散、质量参差不齐、注释标准不一,导致研究人员在开展大规模比较分析时面临巨大挑战。正如文献所述,NCBI RefSeq、PATRIC等主流数据库虽提供基础注释,但缺乏系统性的功能注释层;GTDB虽解决分类学不一致问题,却未涵盖深度功能信息。更关键的是,基因组质量评估、栖息地信息整合及移动遗传元件等专项注释的缺失,极大限制了从基因组数据中挖掘生物学洞察的深度与可靠性。
为破解这一难题,由欧洲分子生物学实验室、Keio大学等机构研究人员组成的国际团队在《Nucleic Acids Research》上发布了proGenomes4数据库。该研究旨在构建一个集高质量基因组、一致性注释与多维度元数据于一体的综合性资源,为微生物学研究提供标准化数据基石。
关键技术方法包括:从NCBI下载310万个原核基因组,通过CheckM2(完整性>90%、污染<5%)与GUNC(污染<5%、克隆分离评分<0.45)进行质控,筛选出190万个高质量基因组;利用Mash和fastANI进行平均核苷酸一致性(ANI)≥95%的物种划分;通过eggNOG-mapper、Cayman(碳水化合物活性酶注释)、Abricate(抗微生物耐药基因注释)、proMGE(移动遗传元件识别)及GECCO(生物合成基因簇预测)进行多功能注释;整合BV-BRC和Microbe Atlas Project(MAP)的栖息地元数据。

基因组收集与质控

研究人员从NCBI核苷酸数据库下载所有细菌和古菌基因组,经去重和过滤后,通过CheckM2与GUNC评估基因组质量。结果显示,仅61.3%(190万/310万)的基因组满足高质量标准,凸显了公共数据中质量问题的普遍性。闭环完整组装被自动视为高质量,其余基因组则需通过严格指标筛选,确保后续分析基于可靠数据。

物种划分与代表性基因组选择

基于ANI的物种划分方法将基因组聚类为32,887个物种群。为降低冗余,研究者针对每个物种选取代表性基因组:优先选择完整基因组中引用率最高的菌株(如结核分枝杆菌H37Rv),若无完整基因组则选择N50最高的组装。此举平衡了基因组质量与科学影响力,为下游应用如宏基因组读长映射提供了非冗余数据集。

功能注释与专项分析

通过eggNOG-mapper将约60亿个蛋白质关联至eggNOG 5.0的直系同源群,实现功能注释全覆盖。专项分析揭示:Cayman工具精准注释了碳水化合物活性酶;Abricate识别出抗微生物耐药基因;proMGE系统标注了移动遗传元件及其耐药基因携带情况;GECCO则预测了生物合成基因簇,为次级代谢产物研究提供资源。

栖息地注释与跨数据库链接

栖息地注释通过BV-BRC来源信息与MAP的16S rRNA序列匹配实现。BV-BRC直接注释了37.9万个基因组的来源环境,而MAP通过98%操作分类单元(OTUs)匹配将物种关联至标准化栖息地分类。
如图2所示,栖息地注释覆盖度较前一版本提升一倍,显著增强了微生物生态学研究的可行性。数据库还新增与GTDB、BacDive等资源的双向链接,实现信息互补。

数据库架构与访问方式

proGenomes4采用PostgreSQL关系数据库存储基因组特征信息,序列数据以索引FASTA格式管理。新开发的命令行工具与Python包支持批量数据下载,网站界面提供交互式查询与可视化浏览,满足不同用户场景需求。
如图1所示,相较于早期版本,proGenomes4在基因组数量、物种多样性及基因注释规模上均实现跨越式增长。
研究结论强调,proGenomes4通过整合高质量基因组、标准化注释流程及多维元数据,解决了微生物基因组资源的可重复性与可比性问题。其双重意义在于:一方面为实验微生物学家提供即用型注释数据,支撑菌株功能解析;另一方面为计算研究者提供大规模、结构化的数据集,助力机器学习模型构建与进化规律挖掘。该资源已作为eggNOG、mOTUs等工具的数据基础,未来将通过持续增加注释维度、优化跨资源集成,进一步推动微生物学研究的标准化与规模化发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号