使用 q2-ena-uploader 提供更公平的 DNA 序列数据:这是一个专为在欧洲核苷酸档案库(European Nucleotide Archive)中上传数据而设计的 QIIME 2 插件

《Microbiology Resource Announcements》:FAIRer DNA sequence data with q2-ena-uploader: a QIIME 2 plugin for data deposition in the European Nucleotide Archive

【字体: 时间:2026年01月13日 来源:Microbiology Resource Announcements 0.6

编辑推荐:

  q2-ena-uploader是QIIME2框架的插件,用于自动化验证和上传下一代测序数据至欧洲核苷酸档案馆(ENA),降低技术门槛并促进数据共享。

  

摘要

技术障碍是下一代序列数据存储在公共仓库中的主要障碍。我们推出了q2-ena-uploader,这是一个用于自动验证和上传序列数据的软件包。它采用BSD-3许可证,可在https://github.com/bokulich-lab/q2-ena-uploader获取。

公告

下一代测序(NGS)数据的生成速度持续加快,但仍有大量数据未能存储到欧洲核苷酸档案库(ENA)或序列读取档案库(SRA)等公共仓库中(1)。尽管许多科学期刊现在鼓励甚至要求提交原始序列数据,但实际操作中的诸多障碍常常阻碍了研究人员(2)。提交过程可能耗时、技术复杂且难以操作,通常需要熟悉特定的元数据标准和命令行工具/接口。因此,大量有价值的数据对更广泛的研究社区来说仍然无法获取(3),这严重阻碍了实现科学数据的“可发现性、可访问性、互操作性和可重用性”(FAIR)的目标(4)。
我们开发了q2-ena-uploader来解决这些问题。该插件是为流行的微生物生物信息学框架QIIME 2(5)设计的,旨在简化将原始NGS数据上传到ENA仓库的整个流程。QIIME 2的模块化、基于插件的架构以及多样化的用户界面使其成为降低已有用户技术门槛、促进数据共享的理想工具。我们选择ENA是因为它支持程序化数据上传,并提供了全面的文档,这些对于开发无缝工具至关重要。由于ENA和SRA通过国际核苷酸序列数据库合作组织(INSDC)进行数据交换,ENA为数据提交提供了便捷的入口。
q2-ena-uploader插件提供了上传研究元数据、样本元数据、运行元数据以及原始数据文件的单独功能(图1)。此外,它还提供了一个集成的工作流程,将这些步骤串联起来,用户在提供所有所需元数据的情况下,只需通过一个命令即可提交整个实验。这种方法的一个关键优势是QIIME 2框架提供的强大数据验证功能——该插件会验证所有研究、样本和实验的元数据,确保符合ENA提交要求的标准列存在且格式正确。样本ID会在不同的提交步骤中进行交叉检查,从而保证数据在整个过程中的完整性。任何检测到的问题(无论是与原始数据完整性还是元数据缺失相关的问题)都会被标记为错误,使用户能够在数据提交到ENA服务器之前进行处理。最后,所有ENA提交记录都会作为独特的QIIME 2工件存储,用户可以随时轻松检索提交信息,包括分配的访问号码。
图1
q2-ena-uploader QIIME 2插件的工作流程图,包含三个操作:submit-metadata-samples用于提交研究数据元数据、submit-metadata-reads用于提交实验元数据、transfer-files-to-ena用于上传原始文件。每个操作都会生成唯一的收据。
图1 q2-ena-uploader QIIME 2插件中可用的操作概览。研究数据和样本可以使用submit-metadata-samples操作进行提交,实验元数据可以使用submit-metadata-reads操作进行提交,原始数据文件可以使用transfer-files-to-ena操作进行上传。每个操作都会生成一个唯一的收据,用户可以据此检查潜在错误或获取分配的访问号码。
q2-ena-uploader的开发显著减轻了与公共数据提交相关的技术负担,使更多研究人员能够遵守数据共享规定并参与开放科学计划。对于现有的QIIME 2用户来说,这一集成非常实用:他们的数据已经以QIIME 2工件形式进行管理,因此提交到ENA只是工作流程中的另一个自然步骤,可以利用熟悉的工具和界面。对于目前还不是QIIME 2用户的研究人员,q2-ena-uploader仍可通过QIIME 2的不同用户界面简化复杂的提交流程。总体而言,我们的插件使研究人员能够轻松与科学社区共享他们的NGS数据,促进FAIR研究数据实践。我们相信,q2-ena-uploader将通过确保高质量数据的可用性并减少数据共享的时间和技术障碍,在加速科学发现方面发挥关键作用。

致谢

本项工作得到了ETH领域开放研究数据(ORD)计划(2020–2024年)对BOSTORD项目的支持。我们感谢Lena Floerl、Paula Momo Cabrera和Anton Lavrinienko在开发过程中对插件进行测试并提供了宝贵的反馈。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号