CNPS.cycle:宏基因组数据驱动的生物地球化学循环分析新工具

《mSystems》:CNPS.cycle: streamlining shotgun metagenomic data analysis for biogeochemical cycles

【字体: 时间:2025年10月23日 来源:mSystems 4.6

编辑推荐:

  本文推荐一款名为CNPS.cycle的R语言工具包,该工具旨在简化与碳(C)、氮(N)、磷(P)、硫(S)循环相关的鸟枪法宏基因组数据分析流程。它通过整合KEGG和NR数据库注释结果,自动化完成基因丰度差异分析、功能微生物宿主鉴定、β-多样性分析和可视化呈现,显著降低了微生物生态学研究的生物信息学门槛,为探索微生物介导的元素循环过程提供了高效解决方案。

  
摘要
鸟枪法宏基因组数据分析在环境生物地球化学循环研究中仍面临学习曲线陡峭、时间投入大和计算需求高等挑战。CNPS.cycle这一新型R语言工具包应运而生,它专门用于简化与生物地球化学过程相关的宏基因组数据解读,并提供信息丰富的可视化结果。该工具包包含四个独立分析模块,分别聚焦碳、氮、磷、硫循环。用户只需上传基于KEGG和NCBI非冗余蛋白序列数据库的注释结果文件,即可自动化完成数据预处理、基因筛选、差异分析、功能微生物鉴定、β-多样性分析及可视化等一系列步骤,最终获得与CNPS循环相关的差异丰度基因和功能微生物的全面分析结果。
重要性
CNPS.cycle R包通过简化与生物地球化学循环相关的鸟枪法宏基因组数据分析,具有重要的环境意义。其自动化工作流程能识别参与碳、氮、磷、硫循环的关键基因和微生物,增强我们对微生物贡献于生态系统功能的理解。该工具使研究人员能更有效地探索微生物介导的营养循环,支持环境管理和气候变化减缓的明智决策。
引言
生物地球化学循环是调节生态稳定性、影响气候模式、维持环境动态并最终支持地球上生命的基本过程。其中,碳、氮、磷、硫的循环在塑造不同生境的生态系统功能中起着核心作用。微生物群落是这些循环的主要驱动力,通过表达编码关键酶的功能基因介导元素转化。然而,由于微生物生态系统的复杂性和宏基因组中注释基因的数量庞大,将基因功能与生物地球化学过程有效联系起来仍然是一个重大的分析挑战。
以往研究环境中元素循环基因及相关微生物的方法复杂且技术要求高。尽管Zheng等人开发了能同时定量检测72个CNPS循环基因的基因微阵列方法,但该方法无法将检测到的功能基因与特定的微生物分类单元关联起来。基于鸟枪法宏基因组技术开发的CCycDB、NCycDB、PCycDB、SCycDB和NR数据库,有效地将CNPS循环基因与携带这些基因的微生物联系起来,但用户仍需手动构建复杂的元素循环通路图并从大量NR物种注释中识别相关微生物。此外,大多数分析宏基因组序列的软件针对Linux系统,对计算性能要求高,且存在成本高、软件安装依赖复杂等问题。
虽然已开发出METABOLIC、DRAM和DiTing等工具来分析宏基因组数据中的功能基因,但没有一个工具是专门为简化生物地球化学循环过程(尤其是CNPS相关过程)的解释而设计的。与之相比,CNPS.cycle旨在弥合这一差距:它不追求详尽的通路重建,而是专注于一组精心筛选的关键功能基因,这些基因代表了最具生态相关性的CNPS过程。它简化了数据处理,突出了最具生物学意义的趋势,使研究人员能够从复杂的宏基因组数据集中高效提取信息。
CNPS.cycle总结了42个元素循环过程,这些过程是基于其生态重要性和在环境宏基因组中的普遍性而选择的。对于每个过程,都包含了代表主要代谢转化途径的代表性基因。这种有针对性的方法辅以丰富的可视化输出,促进了实验组间的直观比较。此外,CNPS.cycle利用用户提供的NR注释将功能基因与其分类学起源联系起来,使用户能够在多个分类学水平上探索每个CNPS过程的微生物贡献者。该工具包是平台无关的,易于在标准桌面系统上安装,且不依赖Linux或高性能计算。
材料与方法
工作流程
CNPS.cycle是一个为元素循环过程综合分析而开发的R包。总共精心筛选了119个KEGG直系同源条目,并将其归入42个具有代表性的生物地球化学循环过程。CNPS.cycle封装了总共57个功能,组织成四个独立的分析模块:碳、氮、磷、硫循环。在每个模块内,CNPS.cycle提供四种不同的功能分析,包括生物地球化学循环相关基因的筛选与差异分析、携带生物地球化学循环相关基因的微生物分析、β-多样性分析以及数据可视化。
输入数据要求
由于CNPS.cycle所需的输入文件来源于宏基因组下游分析结果,建议用户首先完成标准预处理步骤。原始测序读数应使用宏基因组组装器进行组装。然后使用基因预测工具对组装的重叠群进行基因预测。对于功能和分类学注释,预测的氨基酸序列应使用KofamScan进行功能注释,并使用DIAMOND比对NCBI NR数据库进行分类学分类。生成的注释文件以及相关的基因丰度谱作为CNPS.cycle的输入。
具体而言,CNPS.cycle需要以下五个制表符分隔的输入表格:
i. KO表:基于KO注释的基因丰度矩阵。
ii. 分组表:将每个样本映射到其对应实验组的简单表格。
iii. 基因注释表:将非冗余基因ID映射到其KO注释。
iv. 分类学注释表:提供每个基因的分类学信息。
v. 基因丰度表:每个基因在各样本中的丰度值矩阵。
生物地球化学循环相关基因的筛选与差异分析
从用户提供的KO丰度矩阵中提取KO水平丰度值,并使用针对每种元素的专用函数汇总为通路水平丰度谱。为确保稳健的差异分析,CNPS.cycle实施了以下统计程序:Shapiro-Wilk检验评估数据正态性;对于两组比较,应用参数和非参数方法;对于多于两组的比较,使用单因素方差分析和Kruskal-Wallis检验。此外,CNPS.cycle支持使用Bray-Curtis相异矩阵进行多变量群落水平分析。fold.change()函数用于成对差异分析,生成折叠变化值表格。
携带生物地球化学循环相关基因的微生物分析
根据两个标准确定输入数据集中每个元素循环过程的存在:跨样本的非零KO水平丰度,以及至少一个与该过程相关的KO成功映射到基因注释表。CNPS.cycle通过内部辅助函数实现此过程。对于检测到给定过程的数据集,CNPS.cycle通过整合两个用户提供的注释源,将分类学信息分配给携带相应KO的基因。通过匹配这两个表中的基因标识符,CNPS.cycle在六个分类学等级上建立了生物地球化学功能与微生物分类单元之间的关系。
β-多样性分析
CNPS.cycle提供了一个统一的框架,用于评估参与碳、氮、磷、硫循环的微生物群落的β-多样性。对于每个循环,使用KO水平基因丰度矩阵计算Bray-Curtis相异性。使用pcoa.arg()函数计算相异性,并通过PERMANOVA评估样本组间的统计差异。使用pcoa.arg()、pca.arg()和nmds.arg()函数分别进行主坐标分析、主成分分析和非度量多维尺度分析。
数据可视化
CNPS.cycle集成了多种数据可视化功能以支持元素循环模式的解释。对于每个模块,该工具包生成可直接用于出版的可视化输出,包括热图、差异丰度图、排序图以及通路图。所有图均使用CNPS.cycle中的内置函数生成,并以高分辨率PDF格式导出。
模拟宏基因组数据生成与功能注释工作流程
为系统评估功能注释工具对生物地球化学循环基因的性能,生成了已知组成的模拟宏基因组数据集。使用InSilicoSeq生成了五个合成鸟枪法宏基因组数据集。原始读数首先进行质量控制,然后使用MEGAHIT组装成重叠群。使用Prodigal预测开放阅读框。预测的氨基酸序列使用KofamScan进行注释,并使用DIAMOND进行NR数据库分类学分类。基因丰度使用TPM标准化进行量化。将CNPS.cycle的输出与METABOLIC、DRAM和DiTing的结果进行比较,计算假阳性率、假阴性率和注释准确率等指标。
计算资源与性能基准
CNPS.cycle的计算性能主要取决于数据集大小。基准测试表明,在一个配备Intel i5-14600MF CPU和64 GB RAM的工作站上,对于包含约1,048,575个非冗余基因的九个样本的代表性数据集,完整的CNPS.cycle流程可在约3分钟内完成。
访问与使用
CNPS.cycle包通过GitHub公开可用。GitHub仓库提供了包安装说明、综合使用指南、测试数据集、示例脚本和示例输出格式。用户在使用CNPS.cycle时遇到的任何问题或建议均可通过GitHub Issues页面报告。
结果
CNPS.cycle的验证
通过构建已知基因注释的序列文件,并使用CNPS.cycle、METABOLIC、DRAM和DiTing进行功能注释比较,评估了CNPS.cycle的可靠性、准确性和计算效率。结果表明,CNPS.cycle在多个方面优于其他软件工具。CNPS.cycle表现出最低的假阴性率和假阳性率。在注释准确性方面,CNPS.cycle在所有四种评估的生物地球化学循环中均表现出显著优势,平均注释准确率超过85%。除了高注释准确性外,CNPS.cycle还表现出卓越的计算效率,其计算负载与DiTing相似,远低于METABOLIC。
CNPS.cycle的应用示例
将CNPS.cycle应用于一个真实的猪粪堆肥环境数据集,以展示其功能。生成的文件夹和文件在最终输出目录中以特定结构组织。碳循环分析结果显示,堆肥过程中碳循环功能基因存在显著差异。猪粪堆肥促进了有氧碳固定和有氧呼吸基因的丰度,而抑制了发酵基因的丰度。厌氧碳固定和产甲烷基因的丰度则呈现先升高后降低的趋势。不同碳循环过程由不同的关键微生物主导。有氧碳固定和有氧呼吸过程主要与放线菌门相关,而厌氧碳固定主要与厚壁菌门相关。堆肥时间促进了这些微生物的增殖。氮、磷、硫循环文件夹包含类似结构的结果。需要强调的是,虽然猪粪堆肥系统是一个代表性应用,但CNPS.cycle设计用于适用于各种环境基质的宏基因组数据集。
讨论
CNPS.cycle代表了鸟枪法宏基因组技术和生物地球化学循环研究的重要进展。其低技术门槛和自动化分析工作流程必将留下持久印象。为确保成功安装,在不同R版本下进行了稳定性测试,强烈建议用户使用R版本≥4.2.0并通过提供的本地安装方法进行安装。准确全面地反映生物地球化学循环过程是CNPS.cycle包受欢迎的关键。为此,不仅整合了DiTing、CcycDB、NCycDB、PCycDB和SCycDB提供的元素循环过程,还对一些重要过程进行了更细致的划分。这种精细的覆盖奠定了CNPS.cycle的稳健性,导致其始终具有低假阴性率、低假阳性率和高注释准确性。其全面性还体现在统计分析能力上,覆盖了所有数据需求。此外,CNPS.cycle不仅深入研究了元素循环基因,还识别了携带这些基因的微生物。与METABOLIC、DRAM和DiTing相比,CNPS.cycle在注释准确性和计算效率方面均表现出优越性能。
尽管CNPS.cycle为微生物对生物地球化学循环贡献的重叠群水平功能分析提供了快速有效的解决方案,但仍存在一些局限性有待未来开发。首先,该工具专门为鸟枪法宏基因组数据集设计,侧重于碎片化的重叠群而非完整的分离株基因组或高质量的宏基因组组装基因组。其次,当前实现要求用户在基于Linux的计算环境中完成所有上游处理步骤。为克服此限制,正在开发一个基于网络的集成平台。第三,CNPS.cycle目前主要针对四种主要元素循环。未来版本将扩展范围以包含其他生态相关元素。还计划整合病毒序列分析。最后,为增强生态学解释,将整合环境元数据到CNPS.cycle中,并提供高级分析模块。这些改进旨在扩展CNPS.cycle的分析能力,降低技术障碍,并建立一个全面的、用户友好的平台,用于研究不同生态系统中生物地球化学过程的微生物基础。
致谢
感谢各位教授和同学对改进软件、GitHub网站和手稿提供的建议和帮助。本研究得到了国家自然科学基金、海南省科技专项基金、海南省自然科学基金、中国热带农业科学院科技创新团队项目以及中央级公益性科研院所基本科研业务费的资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号