SILVA数据库2026:rRNA资源整合DSMZ数字多样性平台的新纪元

《Nucleic Acids Research》:SILVA in 2026: a global core biodata resource for rRNA within the DSMZ digital diversity

【字体: 时间:2025年11月19日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本刊推荐:为解决微生物分类学中核糖体RNA(rRNA)数据标准化与可持续性问题,研究人员开展了SILVA数据库整合至DSMZ数字多样性联盟(D3)的主题研究。通过重构网站界面、引入TaxMap可视化工具及QIIME2/DADA2/Kraken2分类器生成功能,实现了跨数据库互操作性与FAIR数据原则的深化应用。该成果为全球微生物组研究提供了核心数据基础设施,显著提升了rRNA序列分类的准确性与可重复性。

  
在微生物学研究领域,核糖体RNA(rRNA)序列一直是解析生命之树的核心工具。自2007年问世以来,SILVA数据库作为全球权威的rRNA资源库,持续为科研界提供经过质量校验、比对和分类的rRNA序列。然而,随着测序技术的飞速发展,数据量呈指数级增长,传统的数据处理流程面临计算效率低下、分类标准不统一、以及跨平台互操作性不足等挑战。更严峻的是,微生物分类学体系本身正处于变革期——国际原核生物命名法规(ICNP)正式承认“门”(phylum)级分类单元,基因组分类数据库(GTDB)推翻了部分传统分类框架,而新出现的SeqCode更允许以基因组序列作为命名依据。这些变革使得如何将rRNA序列分类与最新分类学进展保持同步,成为亟待解决的难题。
为解决上述问题,由德国莱布尼茨DSMZ微生物与细胞培养物研究所牵头的国际团队,将SILVA数据库整合至DSMZ数字多样性联盟(D3)平台,并完成了一系列关键技术升级。相关研究以“SILVA in 2026: a global core biodata resource for rRNA within the DSMZ digital diversity”为题,发表于《Nucleic Acids Research》2025年数据库特刊。这项工作不仅确保了SILVA资源的长期可持续性,更通过深度融合LPSN(原核生物命名列表)、BacDive(微生物菌株数据库)等D3核心资源,构建了微生物数据互联互通的新范式。
研究人员主要采用以下关键技术方法:1)使用VSEARCH聚类算法(替代UCLUST)构建非冗余参考数据集(Ref NR 99),以99%相似度阈值优化序列代表性;2)通过德国生物信息学基础设施网络(de.NBI)云平台实现计算任务分布式处理;3)整合GTDB、LPSN、UniEuk等多源分类学标准进行手动 curation(人工校验);4)开发TaxMap工具(基于EukMap重构)实现分类层级可视化管理;5)基于RESCRIPt插件和Clawback流程生成QIIME2、DADA2、KRAKEN2等分类器。
集成DSMZ数字多样性品牌
为提升用户体验的一致性,研究团队对SILVA网站进行了全面重构,采用与D3联盟统一的视觉设计规范。
新界面不仅强化了与LPSN、BacDive等数据库的跨资源导航功能,还为后续API开发与知识图谱构建奠定了基础。
工作流程与内容优化
针对数据量爆炸式增长的挑战,团队从SILVA第115版(SSU)和138.1版(LSU)开始,将指导树(guide trees)的计算基础从完整参考数据集(Ref)调整为Ref NR 99数据集。这一变革显著降低了计算复杂度,同时通过保留模式菌株序列确保了分类学代表性。此外,自第119版起,新增的自动分类流程(Parc)能够将Ref NR 99数据集的分类信息自动传播至全量序列。
分类学 curation(人工校验)体系革新
SILVA首次实现了基于LSU和SSU双亚基的全域生命分类覆盖。团队在第138.2版中采纳了43个ICNP正式发布的门级名称,并引入六层级分类框架(属、科、目、纲、门、域)以匹配GTDB标准。为解决未分类序列的归属问题,新创2,726个“Incertae sedis”(分类未定)占位符分类单元,同时废止了易引发歧义的“uncultured”(未培养)标签。
分类器生态扩展
为解决用户自定义分类器生成的技术门槛问题,团队开发了基于TestPrime工具的区段特异性与生境特异性分类器生成功能。通过整合RESCRIPt和Ready-to-wear流程,用户可直接获取优化后的QIIME2、DADA2与Kraken2分类器,显著提升了扩增子数据分析的准确性与可重复性。
FAIR数据与开源战略
为强化数据可追溯性,所有SILVA版本(自138版起)均分配了数字对象标识符(DOI),并采用知识共享署名4.0(CC-BY 4.0)许可协议。同时,TaxMap等核心工具以AGPLv3协议开源,体现了对开放科学理念的践行。
该研究通过系统性重构SILVA数据库的技术架构与生态体系,成功解决了微生物分类学资源面临的可持续性、标准化与互操作性三大核心挑战。尤为重要的是,通过深度融合D3联盟资源,建立了rRNA序列与菌株metadata(元数据)、酶学功能(BRENDA)、命名规范(LPSN)之间的关联网络,为宏基因组学、进化生物学等领域提供了坚实的数据基石。未来,随着知识图谱与SPARQL查询端点的部署,SILVA有望进一步推动微生物大数据在人工智能辅助研究(如检索增强生成RAG)中的应用,持续赋能全球生命科学研究。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号