ProSynTax:提升海洋原绿球藻和聚球藻宏基因组分类分辨率的精选蛋白质数据集

《Scientific Data》:A curated protein dataset for taxonomic classification of Prochlorococcus and Synechococcus in metagenomes

【字体: 时间:2025年12月04日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对海洋原绿球藻(Prochlorococcus)和聚球藻(Synechococcus)在宏基因组分类中分辨率不足的问题,开发了名为ProSynTax的精选蛋白质序列数据集及配套分类流程。该资源整合了1,260株picocyanobacteria基因组和41,753株异养微生物参考序列,实现了0.15%(原绿球藻)和0.03%(聚球藻)的超低检测限,为海洋微生物生态学研究提供了高精度分类工具。

  
在广阔的海洋表面,存在着两颗微小的"生态引擎"——原绿球藻(Prochlorococcus)和聚球藻(Synechococcus)。这些直径不足2微米的浮游光合细菌,虽然个体微小,但 collectively 贡献了海洋初级生产力的重要部分。它们像海洋中的"草原",支撑着整个海洋食物网的基础运转。然而,科学家们长期面临一个挑战:如何在复杂的海洋环境样本中准确识别这些微生物的不同亚群?
传统的分类方法往往将这些多样性丰富的picocyanobacteria归类为单一菌株,这就像将热带雨林中的千百种植物统称为"树木"一样,无法揭示其内部精细的生态位分化。随着测序技术的发展,大量高质量参考基因组的出现为解决这一难题提供了契机。来自麻省理工学院的研究团队把握这一机遇,在《Scientific Data》上发表了题为"ProSynTax: Prochlorococcus and Synechococcus Taxonomy Database"的研究,推出了一个革命性的分类资源。
研究团队收集了1,260个原绿球藻和聚球藻基因组,包括单细胞扩增基因组、高质量草图基因组和新完成的闭合基因组。特别值得一提的是,其中包含39个原绿球藻和12个聚球藻的新闭合环状基因组,这些来自北太平洋和南太平洋亚热带环流的样本为研究基因组进化提供了宝贵资源。
如图1所示,研究人员基于424个单拷贝核心基因的串联蛋白比对构建了系统发育树,清晰地展示了原绿球藻和聚球藻各主要类群间的进化关系。这种基于核心蛋白相似性的分类方法,结合数十年来对不同系统发育分支的生态和生理学研究,形成了既具有生态相关性又保持分类灵活性的框架。
研究方法的核心是创新性地利用蛋白质参考序列进行分类。研究显示,蛋白质序列在宏基因组分类中的表现与核苷酸参考相当,且更适合基于单拷贝核心基因的标准化方法。研究人员使用Kaiju进行序列分类,通过DIAMOND Blastx将reads比对到CyCOG v6.0数据库中的单拷贝核心基因,进而通过标准化单拷贝核心基因的read residues来估算基因组当量。
技术验证结果
通过模拟宏基因组数据的系统验证表明,ProSynTax具有出色的分类准确性。当原绿球藻reads通过分类流程时,约81%能被正确分类,误分类率极低。检测限分析显示,为保持误分类率低于5%,原绿球藻的最低检测丰度为0.15%,聚球藻为0.03%。
图2展示了不同丰度条件下的误分类率,为研究人员根据实验需求选择合适的过滤阈值提供了明确指导。当两种cyanobacteria共存时,为保持较低的误分类率,原绿球藻与聚球藻的比例需大于0.40,而聚球藻与原绿球藻的比例需大于0.20。
类群级别分类准确性
在评估不同类群组成估计的准确性时,ProSynTax表现出与预期值高度一致的结果。无论是单独分析某种picocyanobacterium,还是与海洋异养细菌混合分析,大多数类群级别的分类差异都小于5%。
如图3所示,分类结果与预期值高度吻合,微小的差异主要源于参考基因组数据集中某些类群的代表性不足,如原绿球藻的LLVIII和AMZ-III grade,以及聚球藻的5.1A-III、5.1B-V等cluster。
野外数据验证
最令人信服的验证来自对ALOHA站实际环境样本的分析。研究人员利用HOT224-238航次的宏基因组数据,验证了ProSynTax在真实海洋环境中的适用性。
图4展示了ALOHA站不同深度原绿球藻类群的分布模式:在75米以浅的水体中主要分布高光适应型(HL)类群,而在125米以深则主要为低光适应型(LL)类群。这一结果与多年来对该区域原绿球藻多样性的研究完全一致,证明了ProSynTax能够准确捕捉已知的生态模式。
研究团队将ProSynTax设计为一个灵活可扩展的平台,用户可以根据需要添加新基因组或修改分类系统。配套的GitHub仓库提供了详细的使用教程和代码,使研究人员能够轻松地将这一工具应用于自己的研究中。
这项研究的重要意义在于,它首次提供了一个专门针对海洋picocyanobacteria的高分辨率分类资源,将分类精度提升到了新的水平。通过将环境数据与高精度的分类信息相结合,研究人员能够更深入地理解这些重要微生物群体的生态位分化和环境适应机制。随着海洋环境变化的加剧,这种能够精确追踪特定微生物类群动态的工具显得尤为重要,它为理解海洋生态系统对全球变化的响应提供了关键技术支持。
ProSynTax的推出标志着海洋微生物生态学研究进入了一个新的阶段,从"是否存在"转向"哪些亚群存在以及它们如何相互作用"。这一工具不仅有助于揭示海洋微生物世界的精细结构,也为预测未来海洋生态系统变化提供了新的视角。随着更多研究人员使用这一资源,我们有望对海洋中最微小的生命形式如何驱动全球生物地球化学循环有更深入的理解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号