gcMeta 2025:全球宏基因组组装基因组资源库——开启跨生态系统微生物发现与功能研究新纪元
《Nucleic Acids Research》:gcMeta 2025: a global repository of metagenome-assembled genomes enabling cross-ecosystem microbial discovery and function research
【字体:
大
中
小
】
时间:2025年11月01日
来源:Nucleic Acids Research 13.1
编辑推荐:
本刊推荐:为破解宏基因组数据异质性及分析流程不一致等瓶颈,研究人员构建了gcMeta数据库,整合来自104,266个样本的>270万MAGs,建立了50个生物群落特异性MAG目录,涵盖109,586个物种级簇(其中63%为新物种),并完成>3.17亿基因功能注释。该平台通过关联功能性状与微生物共现网络,识别出生化循环关键类群,提供标准化AI就绪数据集,为微生物生态学研究及生物技术应用提供核心资源支撑。
随着高通量测序技术的迅猛发展,宏基因组学领域正经历着数据量的爆炸式增长。海量的测序数据中蕴藏着无数微生物世界的奥秘,尤其是通过宏基因组组装技术重构的微生物基因组(MAGs),为我们揭示不可培养微生物的遗传蓝图提供了前所未有的机会。然而,这些宝贵资源在实际应用中却面临严峻挑战:不同研究团队采用的数据生成方法各异,分析流程千差万别,导致数据间难以直接比较和整合利用。这种"数据孤岛"现象严重制约了微生物资源的深度挖掘和功能解析。
正是在这样的背景下,中国科学院微生物研究所的研究团队在《Nucleic Acids Research》上发布了gcMeta 2025数据库,这一创新性工作旨在构建全球规模最大的标准化宏基因组组装基因组资源库。该研究团队通过系统整合来自不同生态系统的宏基因组数据,建立了一套完整的从数据收集、质量控制到功能注释的标准化流程,为跨生态系统的微生物比较研究提供了统一框架。
研究人员采用双管齐下的策略构建数据库:一方面从NCBI SRA等公共数据库获取已有MAGs数据,另一方面对符合标准的原始测序数据进行从头组装和分箱。这一策略使得gcMeta最终整合了超过270万MAGs,这些数据来源于104,266个生物样本,覆盖了人类、动物、植物、海洋、淡水以及极端环境等多样化生态系统。
在技术方法层面,研究团队运用了多项关键技术:使用BBDuk进行测序数据质量控制,采用SPAdes或MEGAHIT进行宏基因组组装,利用MetaWRAP整合多种分箱工具(MaxBin2、CONCOCT、MetaBAT2)进行基因组重构,通过CheckM评估基因组质量,基于dRep进行物种级聚类(95% ANI,30%重叠度),并运用GTDB-Tk和BAT进行系统分类学注释,以及DIAMOND等工具进行全方位功能注释。
数据库构建与特征部分详细阐述了gcMeta的系统架构。研究人员建立了50个生物群落特异性的MAG目录,这些目录共包含109,586个物种级别的基因组簇,其中69,248个(63%)代表 previously uncharacterized taxa(先前未表征的分类群)。每个物种级代表性MAG都经过了标准化注释流程,包括基因组质量评估、tRNA和rRNA基因预测、蛋白质编码序列预测以及多功能数据库注释。
数据内容与案例研究部分展示了gcMeta的丰富资源。海洋海水目录目前包含最多的物种数量,达128,151个MAGs和13,907个物种。通过非冗余基因集比较发现,人类阴道目录中新基因比例最小(约9%),而酸性矿山排水目录中超过35%的基因为新基因。不同生态系统的功能基因分布呈现明显差异:与环境相关的目录相比,宿主相关目录中elfamycin抗生素相关ARGs(抗生素抗性基因)比例较低,而水杨酸抗生素相关ARGs在淡水生境中具有明显优势。
极端环境五个MAG目录的比较分析案例充分展示了gcMeta平台的实用价值。研究人员对酸性、寒冷、炎热、高压和盐碱五种极端环境中的1,110个样本进行分析,获得了2,680-5,342个不等的物种级代表性基因组,涵盖了147个细菌门和19个古菌门,其中超过60%为新物种。通过BGCs(生物合成基因簇)注释比较,发现在寒冷生境中萜类簇占主导地位,可能与类胡萝卜素等色素产生有关;而在热、压力和盐碱生境中,RiPPs(核糖体合成和翻译后修饰肽)更为丰富。
gcMeta的"功能关键类群"模块成功识别出驱动关键适应过程的分类单元。例如,在寒冷生境中,发现来自Nakamurella(放线菌门)的新物种GCMeta_00780998编码多个阳离子/质子逆向转运蛋白(nhaA、nhaK、mrpA等),赋予强大的Na+(K+)/H+转运能力,维持细胞内渗透平衡和pH稳定性。
非冗余基因集比较显示,每种极端生境都含有超过20%的新基因,其中寒冷生境新基因比例最高(25.7%),而酸性生境功能酶注释比例最高(13.8%)。核心物种中的优势基因分析发现,盐碱、压力和寒冷生境中的核心类群携带DMSP(二甲基硫基丙酸盐)代谢的关键基因(如dmdB和dmdC),表明这些生境中的核心物种具备抵抗环境胁迫的强大能力。
研究结论表明,gcMeta通过整合全球宏基因组样本和MAG数据,建立了迄今为止最全面的生物群落特异性MAG目录集合。该平台不仅提供了用户友好的数据访问、搜索、浏览和分析工具,更重要的是建立了一个跨目录比较微生物群落、关键类群和功能库的框架,同时揭示了大量未知物种和新基因。这一资源弥合了"序列发现"与"功能利用"之间的差距,使得跨生态系统的微生物资源系统挖掘和生态过程精确调控成为可能。
该研究的重大意义在于为微生物生态学研究、工业生物技术和新型基因挖掘提供了坚实的数据基础。未来,gcMeta将继续扩展生境和地理覆盖范围,深化宏基因组数据挖掘,并引入新工具支持一键式在线比较分析,同时不断丰富AI就绪数据集内容,进一步赋能机器学习应用,推动微生物资源研究进入新的发展阶段。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号