subMG工具:自动化元基因组学研究数据提交的革新方案

【字体: 时间:2025年06月06日 来源:BioData Mining 4

编辑推荐:

  针对元基因组学研究中数据提交流程繁琐、易出错的问题,德国比勒菲尔德大学团队开发了自动化工具subMG。该工具通过整合样本信息、测序数据、组装结果及元基因组组装基因组(MAGs)的提交流程,显著降低了时间成本和专业门槛,促进FAIR(可查找、可访问、可互操作、可重用)数据的共享。研究发表于《BioData Mining》,为大规模元基因组分析提供了标准化解决方案。

  

在生命科学领域,元基因组学研究的爆炸式增长带来了海量数据,但数据共享的滞后性严重制约了研究的可重复性和跨研究整合。据统计,高达20%的元基因组学研究未公开任何测序数据,而提交至欧洲核苷酸存档(ENA)的元基因组数据集常因流程复杂、需手动处理多层级数据(如样本信息、原始读长、共组装、分箱contigs和MAGs)而残缺不全。更棘手的是,分类学标识需人工匹配环境微生物的未培养物种标签,例如将Enterobacteriaceae科(分类ID 543)的基因组手动校正为"uncultured Enterobacteriaceae bacterium"(ID 218034)。这种低效现状与FAIR原则背道而驰,亟需自动化解决方案。

德国比勒菲尔德大学计算元基因组学组的Tom Tubbesing等开发了开源工具subMG,通过Python编写的命令行界面(CLI)和图形界面(GUI)整合了ENA提交的全流程。核心技术包括:1) 基于CheckM和GTDB-Tk等工具自动提取分箱质量与分类学信息;2) 调用ENA分类API实现环境微生物标签匹配;3) 通过Webin-CLI实现文件批量上传;4) 动态生成符合MIMAG标准的元数据表单。

Implementation
subMG通过"makecfg"命令生成定制化表单,仅包含必填字段(如样本来源、测序策略),并支持扩展元数据。用户指定提交内容(样本/读长/组装/MAGs)后,"submit"命令自动验证数据完整性,解析BAM文件计算覆盖度,并通过ENA API创建虚拟样本对象。

Results and discussion

工具显著简化了多步骤提交:在包含100个MAGs的研究中,传统方法需手动处理超500个元数据字段,而subMG通过单一配置文件实现自动化。GUI界面(图2)提供字段解释和示例数据,降低非生物信息学用户的使用门槛。

Conclusions
该研究填补了现有工具(如METAGENOTE和EMBL2checklists)在元基因组全流程提交中的空白,首次实现从原始数据到MAGs的一站式FAIR化。通过欧盟BLUETOOLS等项目支持,subMG已部署至de.NBI云计算平台,其MIT许可证保障了工具的广泛可及性。未来版本计划增加元数据智能推荐功能,进一步推动元基因组数据的标准化共享。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号