
-
生物通官微
陪你抓住生命科技
跳动的脉搏
subMG工具:自动化元基因组学研究数据提交的革新方案
【字体: 大 中 小 】 时间:2025年06月06日 来源:BioData Mining 4
编辑推荐:
针对元基因组学研究中数据提交流程繁琐、易出错的问题,德国比勒菲尔德大学团队开发了自动化工具subMG。该工具通过整合样本信息、测序数据、组装结果及元基因组组装基因组(MAGs)的提交流程,显著降低了时间成本和专业门槛,促进FAIR(可查找、可访问、可互操作、可重用)数据的共享。研究发表于《BioData Mining》,为大规模元基因组分析提供了标准化解决方案。
在生命科学领域,元基因组学研究的爆炸式增长带来了海量数据,但数据共享的滞后性严重制约了研究的可重复性和跨研究整合。据统计,高达20%的元基因组学研究未公开任何测序数据,而提交至欧洲核苷酸存档(ENA)的元基因组数据集常因流程复杂、需手动处理多层级数据(如样本信息、原始读长、共组装、分箱contigs和MAGs)而残缺不全。更棘手的是,分类学标识需人工匹配环境微生物的未培养物种标签,例如将Enterobacteriaceae科(分类ID 543)的基因组手动校正为"uncultured Enterobacteriaceae bacterium"(ID 218034)。这种低效现状与FAIR原则背道而驰,亟需自动化解决方案。
德国比勒菲尔德大学计算元基因组学组的Tom Tubbesing等开发了开源工具subMG,通过Python编写的命令行界面(CLI)和图形界面(GUI)整合了ENA提交的全流程。核心技术包括:1) 基于CheckM和GTDB-Tk等工具自动提取分箱质量与分类学信息;2) 调用ENA分类API实现环境微生物标签匹配;3) 通过Webin-CLI实现文件批量上传;4) 动态生成符合MIMAG标准的元数据表单。
Implementation
subMG通过"makecfg"命令生成定制化表单,仅包含必填字段(如样本来源、测序策略),并支持扩展元数据。用户指定提交内容(样本/读长/组装/MAGs)后,"submit"命令自动验证数据完整性,解析BAM文件计算覆盖度,并通过ENA API创建虚拟样本对象。
Results and discussion

工具显著简化了多步骤提交:在包含100个MAGs的研究中,传统方法需手动处理超500个元数据字段,而subMG通过单一配置文件实现自动化。GUI界面(图2)提供字段解释和示例数据,降低非生物信息学用户的使用门槛。
Conclusions
该研究填补了现有工具(如METAGENOTE和EMBL2checklists)在元基因组全流程提交中的空白,首次实现从原始数据到MAGs的一站式FAIR化。通过欧盟BLUETOOLS等项目支持,subMG已部署至de.NBI云计算平台,其MIT许可证保障了工具的广泛可及性。未来版本计划增加元数据智能推荐功能,进一步推动元基因组数据的标准化共享。
生物通微信公众号
知名企业招聘