综述:组学时代的真菌生态学

《New Phytologist》:Fungal ecology in the age of 'omics

【字体: 时间:2026年01月13日 来源:New Phytologist 8.1

编辑推荐:

  本综述系统阐述了组学技术(meta'omics)如何推动植物-真菌互作研究,重点分析了宏基因组学(metagenomics)、宏转录组学(metatranscriptomics)和宏蛋白质组学(metaproteomics)在解析地下生态过程(如碳循环、植物健康)中的独特优势。文章指出当前真菌组学研究远落后于细菌,并存在术语混淆(如将代谢条形码metabarcoding误称为宏基因组学)、数据分析流程不统一等问题。作者呼吁建立标准化报告框架,并强调结合传统实验技术(如PLFA、根染色)对验证组学结果的重要性,最终为实现真菌生态学的可重复性研究提供路线图。

  
摘要
近几十年来,技术的进步赋予我们前所未有的能力来观察自然世界。借助现代测序和生物信息学技术,我们能够获取比以往更多关于微观世界及其与宏观世界相互作用的信息。然而,与以细菌和植物为重点的研究相比,使用元组学技术的真菌研究仍然稀少。本综述重点介绍了元组学如何帮助解决地下植物-真菌生态学中的紧迫问题,展示了分析流程中正在出现的一致性——以及仍然存在的差异——并倡导建立报告标准,使元组学研究能更全面地造福真菌生态学。
引言
真菌对生态系统功能至关重要已是众所周知的事实;它们在从植物健康和生产力到土壤结构和碳储存等一系列过程中扮演重要角色。真菌与驱动全球生态系统功能的生物地球化学循环密不可分。尽管真菌具有基本作用并处于可持续生物工程的前沿,但它们的研究程度仍然不如细菌。
组学技术是靶向细胞分子组分或分子过程集合的技术,使我们能够超越单一生物体研究,探索环境群落的复杂性。随着测序技术在过去几十年的发展,我们已经开始超越简单的、基于身份的条形码研究,并越来越多地依赖一套被称为元组学的工具——这些技术靶向生物群落中给定类型的所有分子。利用这些分子技术和生物信息学,我们可以获得新的见解。由于每种组学技术靶向不同类型的分子(如DNA、RNA或蛋白质),我们可以利用它们研究生态系统功能的不同方面。宏基因组学使我们能够识别群落中存在哪些微生物和基因,并识别新的生物体;宏转录组学使我们能够深入了解整个研究系统的功能;宏蛋白质组学使我们能够直接将酶活性与群落和环境组成联系起来。
进行元组学研究所需的技术已变得显著便宜,使得这些分析更负担得起,因此也更普遍。然而,这些技术的现实是,即使是一个相对简单的研究也可能产生需要大量计算资源和显著数据管理专业知识的数据量。这种信息过剩常常导致数据利用不足,以及研究人员在必须做出的众多决策中陷入困境。为了使真菌生态学家能够在其研究中利用组学技术,元组学研究在该领域变得更容易接近和可重复至关重要。
与组学相关的术语激增是另一个潜在的混淆来源。例如,代谢条形码通常被称为宏基因组学,但这是具有不同目标的不同技术。在其他情况下,多个术语可能意味着同一件事。由于每组分子都有自己的术语,即使阅读文献也可能导致混淆。
本文旨在通过以下方式促进组学方法在真菌生态学中的应用:(1)强调这些技术如何推动植物-真菌生态学领域的发展——特别是当与传统实验室技术结合时;(2)确定现有真菌组学研究中最常用的程序;(3)呼吁建立一个标准报告框架,使这些数据集在长期内更有用。
元组学与真菌生态学:优势与局限
优势:差距在哪里以及元组学如何帮助填补它们?
近年来,一些综述呼吁在植物-微生物生态学中进行整合的多组学研究。然而,真菌生态学在使用组学技术方面继续落后于其他领域。我们对与植物-微生物相互作用组学研究相关文献的初步筛选表明,细菌相关论文数量是真菌的四倍多,并且研究严重偏向宏基因组学。86%的植物和土壤真菌论文与宏基因组学相关,而只有13%和3%分别与宏转录组学和宏蛋白质组学相关。缺乏关于真菌的一般数据,特别是关于基因表达的数据,限制了那些已经完成的研究得出更广泛结论和为保护工作提供信息的能力,这需要大量不同时间和空间尺度的数据。
对人类没有直接已知重要性的真菌序列在研究中代表性不足,尤其是在全基因组研究中。即使在以人类为重点的研究中,稀疏的真菌数据库仍然是一个主要障碍。截至2020年,只有约30%的已知、已命名真菌物种,以及只有1-6%的预期真菌物种,在数据库中拥有可识别的测序数据——而这主要包含核糖体DNA内转录间隔区(ITS)的条形码数据,这并不总是足以进行真菌鉴定。这个问题因许多已知形态的真菌尚未为了将其基因组数据与数据库中现有档案联系起来而进行测序这一事实而加剧。通过将真菌研究扩展到代谢条形码之外,我们将提高准确鉴定的能力。正在进行的增加真菌基因组测序的计划正在 drastically 增加可用的全基因组数量。这些计划通过为组学和元组学组装提供高质量的参考,并提供更新的系统发育关系,提高了我们分析真菌数据的能力。宏基因组学和宏转录组学研究现在可以在此基础上研究植物-真菌关系和变化的生态系统动态。
然而,尽管可用的参考基因组相对增加,但真菌鉴定的问题也因“暗分类群”的概念而加剧——这些生物体仅通过测序被识别。随着测序技术的普及,出现了大量无法与任何已知物理标本匹配的基因组。对于细菌,这个问题已在某种程度上得到解决,因为已经商定了一套用于命名和发布暗分类群的标准。目前尚无此类协议适用于真菌。多组学在能够阐明这些暗分类群如何影响生态系统动态方面具有明显的好处。通过同时使用宏基因组学和宏转录组学,暗真菌分类群可以不仅仅是一个未识别的序列——它们通过其积极表达的基因(宏转录组学)以及它们拥有的全套基因(宏基因组学)在环境中的功能(如共生体、拮抗剂、腐生菌等)可以被研究。
局限:元组学并非万能解决方案
组学已经彻底改变了我们对植物-真菌相互作用和群落的理解,但将研究限制在仅基于身份的数据(如代谢条形码和宏基因组学)的趋势排除了观察群落功能变化的能力。为了研究群落如何相互作用、变化和适应,我们必须通过纳入例如宏转录组学、宏蛋白质组学和其他基于功能的分析来超越简单的识别。同样,组学不能取代进行传统实验室实验可以获得的所有数据。诸如酯连接脂肪酸甲酯(EL-FAME)分析或磷脂脂肪酸(PLFA)分析、酶表征和pH测试等技术已经建立了理解的基础,使我们能够将测序数据放入背景中,而排除这些技术将限制我们进行大规模推断和结论的能力。
何时“传统”分析就足够了?
虽然测序技术是一个强大的工具,但它不能解决所有的科学问题。将元组学视为所有研究问题的万能药的观点导致了大量可解释性和范围有限的测序数据。如果一项研究的目的 是确定,例如,生物量的变化或土壤呼吸的波动,那么非分子(“传统”)技术仍然是完成这项工作的最佳工具。菌根真菌的建立仍然最好通过根染色来测量。酶的作用仍然只能通过酶表征来直接确认。孢子的存活率仍然只能通过显微镜来确认。这些实验台技术不能被测序数据取代,并且在某些情况下,它们是回答特定研究问题所需的全部。
类似地,测序技术依赖于由通过实验台技术已识别其功能的基因、酶和代谢物组成的数据库,或者基于它们与那些已识别功能的序列相似性来识别。如果没有培养、分离和详细表征生物体和蛋白质的持续工作,利用测序数据提供生态数据的能力将会停滞不前。任何给定的测序研究都只与其用于注释的数据库一样好,而数据库只与存入其中的数据一样好。
“传统”分析通常也更便宜、更容易获得,元组学研究的财务障碍对许多实验室来说一直是一个重大障碍。真菌生态学中存在一些基本问题,可以在不花费数千美元进行测序的情况下解决。偏爱“新颖”技术,同时将主要或完全依赖传统分析的研究视为“过时”,是不必要的限制和贬低,因为我们仍然可以从它们那里获得如此多的基本信息。
“传统”分析如何确认或补充组学数据?
测序技术并非万无一失,也不能提供原位发生情况的全面图景。非测序技术在确认测序结果和提供可加强结论的额外信息方面具有重要作用。EL-FAME或PLFA可以提供具体的生物量数据,以确认或为分类或功能测序提供背景。红外气体分析可以提供关于碳周转和土壤健康的补充信息。化学方案,如颗粒有机碳(POC)与矿物结合有机碳(MAOC)分析,可以提供关于通过宏基因组学识别的微生物群落如何影响碳储存的信息。土壤团聚体分析可以提供关于通过宏转录组学识别的植物和微生物群落功能的变化如何影响土壤结构的信息。
了解给定组学技术可以解决的核心问题可以实现组学技术之间(多组学)以及组学与传统方法之间更好的协同作用。每种技术都有其自身的局限性——宏基因组学可以提供关于群落身份和遗传潜力的信息,但无法区分活跃和非活跃的生物体;宏转录组学可以识别活跃的群落成员并提供关于环境中正在表达的基因的信息,甚至可以提供身份信息,但它无法解决遗传潜力或生物量的问题。宏蛋白质组学可以提供关于群落功能的信息,如底物利用,但无法提供身份信息。通过串联使用这些技术,或将它们与互补的实验室技术配对,推理的范围可以显著扩大。如表1所示,虽然许多技术可以单独解决示例问题的某些方面,但它们无法提供全面的答案。没有传统的实验台分析,可以推测测序揭示的微生物和分子可能扮演的影响,但有了它们,就可以真正将这些现象联系起来。
元组学与真菌生态学——当前流程回顾
用于元组学流程中每个步骤的程序选项数量庞大,以及其中的参数,不仅使开始分析成为一项艰巨的任务,而且由于使用了不同的质量阈值、组装算法和识别阈值,使得在研究之间进行比较变得困难。制定标准或指南对于统一这些方法是必要的,使它们易于访问并提高研究之间的可比性。
我们进行了文献回顾,以评估植物-真菌元组学研究中目前正在使用哪些程序,以及是否存在标准化所使用的程序的机会。我们搜索了2015年至2025年间发表的、使用我们感兴趣的元组学技术研究地下植物和土壤相关真菌的论文,获得了1141个结果。手动筛选这些结果以确保它们与植物-真菌生态学相关并利用宏基因组学、宏转录组学和/或宏蛋白质组学,将这个数字减少到315篇论文。由于缺乏数据,我们选择将数值分析重点放在宏基因组学和宏转录组学上。
显然,一些步骤——例如使用“MEGAHIT”进行宏基因组组装——正开始变得标准化,而其他步骤仍然使用各种程序和参数进行。尽管宏转录组学论文数量相对较少,但质量过滤报告了20种不同的程序,序列组装报告了16种不同的程序。
宏基因组学和宏转录组学分析之间的重叠确实显示出一些标准化的迹象,因为像FastQC、Bowtie2和vegan这样的程序在两个流程中都有高度报告。然而,我们发现,即使报告了生物信息学方法,所使用的特异性水平也缺乏一致性(例如,仅报告计算软件如R与报告特定包如vegan),并且特定程序的实际参数(例如,修剪窗口和最小重叠群长度)大多未报告。
其中一些程序,如MG-RAST,是免费使用的,而其他程序,如CLC Genomics,需要购买许可证,这可能会影响使用哪种程序的决定,特别是对于首次接触元组学的早期职业科学家。性能也可能影响使用哪些程序。已证明在某些情况下,IDBA_UD或MEGAHIT比SOAPdenovo2或SPAdes能重建更准确的重叠群。长读长测序的进展和深度学习模型及AI工具的引入,由于它们能够应对真菌基因组的复杂性(如多条染色体和较大的基因组大小),大大提高了真菌基因组组装的准确性。然而,专门适应真核生物数据的工具,如BUSCO(质量检查)和Braker2(注释),在文献中的代表性仍然不足。
代谢条形码在定义最佳实践方面受到了大量关注。虽然像基因组学标准联盟M5咨询小组这样的组织正在努力定义元组学分析中的最佳实践,并更新了MIMARKS和MIxS清单以针对宏基因组学,但他们认识到通用的“分析标准”仍未定义。此外,虽然已有其他呼吁在元组学中建立标准化报告框架,但这些框架并未详细说明正在使用哪些程序,并且没有一个在植物-真菌生态学的背景下定义这些目标。此外,新的方法,如k-mer草图,不断被引入,而其他方法则变得过时,这使得在此时创建标准化流程具有挑战性。我们希望通过总结这些信息,可以为植物-真菌生物信息学中正在做出的决策提供一个起点,从而减少开始分析的障碍。
目前,根据我们审查的论文,宏基因组学流程每个步骤最常用的程序如下:质量检查(FastQC,在28.1%的审查论文中使用)、过滤(Trimmomatic,27%)、组装(Megahit,53.1%)、比对(Bowtie2,31.8%)、开放阅读框预测(Prodigal,28.1%)、归一化(Cd-Hit,52.7%)、注释(Diamond,21.8%)和统计(R,51.1%)。
对于宏转录组学,最常用的程序如下:质量检查(FastQC,58%)、过滤(Trimmomatic,29%)、rRNA去除(SortMeRNA,64%)、组装(Trinity,42.8%)、比对(Bowtie2,39.5%)、开放阅读框预测(Prodigal,27.6%)、归一化(DESeq2,21.7%)、注释(Blast,19.6%)和统计(R,43.5%)。
由于每个生物信息学流程步骤都有如此多的程序可用,在没有经过广泛测试和故障排除并需要多年才能达成共识的情况下,很难将标准强加于植物-真菌研究团体。相关领域中分类注释工具的比较已经表明,许多流行技术,如Kraken2和MetaPhlAn4,并不适合真菌分析,并且即使性能最好的选项也有显著缺点。虽然标准化分析流程确实会带来自身的问题,例如促进过时的实践,但标准不必不必要的僵化,而真菌元组学完全缺乏参考点正在导致专有和自定义流程的激增,这些流程没有可重复地报告,并 perpetuates 使用不理想的程序。与此同时,研究人员提高对可用选项及其在不同分析中如何使用的认识至关重要。为了促进这种认识并提高真菌生态学的透明度,我们认为需要建立一个标准报告框架。
呼吁建立标准报告框架
为了使元组学,特别是多组学研究更易于访问和可重复,我们倡导为植物-真菌分析流程建立一个标准报告框架,以明确序列是如何处理和分析的。虽然我们数据集中的大多数植物-真菌研究确实报告了它们的提取技术和测序平台,但生物信息学步骤的报告较不普遍,且未标准化。我们建议管道报告有以下基本要求:(1)报告样品收集和保存;(2)报告生物信息学分析流程中每个步骤使用的程序和参数;(3)报告序列存放的位置;(4)报告分析生成的任何编码脚本的访问位置。我们呼吁植物-真菌生态学研究团体扩展此大纲,以制定更全面的报告协议。
正如我们之前所述,这些细节中的一些已经在文献中得到更定期的报告,尽管即使对于样品收集等步骤,也注意到报告不足的问题。类似地,我们包含的许多其他细节并未被可靠地报告或以随意的方式报告。用于质量检查、开放阅读框预测和归一化的程序报告率在50%或更低。虽然质量过滤、组装和比对的报告稍多一些,但仍有20%到50%的论文未报告所使用的程序。注释软件和用于统计的程序或平台报告最可靠,分别只有6%和15%的论文未报告。
通过标准化植物-真菌群落内元组学数据的报告方式,我们可以使该领域对生物信息学新手科学家更易于接近,提高我们共享和验证数据的能力,并开始减少我们进行分析方式的变异性。最近,开放、可靠和透明的生态学与进化生物学学会(SORTEE)起草了数据和代码质量控制的指南,类似的推动力应用于保持元组学流程达到相同的可重复报告标准。
提高可重复性不仅将导致更有针对性、更集中的数据收集,还将节省因进行不能直接解决研究问题的分析而花费的时间和金钱。此外,更好的报告指南将增强我们利用在其他地点、季节或环境中进行的元组学研究数据的能力——只要与研究问题相关——这可以在不增加额外成本的情况下使研究更加稳健。大多数分析(包括组学技术)的一个主要限制是它们提供了原位条件的快照。如果没有跨时间和/或空间的重复,通常不可能从单个测序实验中对研究系统进行预测,更不用说在更大规模上推断结果了。使数据更易于其他研究人员访问可以补充可用信息,并在不昂贵得令人望而却步的情况下增加研究的统计效力。
结论
通过设计有针对性的、多组学的研究,并且不忽视实验台技术,可以在回答大规模问题方面取得切实进展,例如全球变化(包括,例如,入侵或从干扰中恢复)如何与地下多样性的不同维度(功能、分类等)相关,或者土壤真菌和植物-真菌相互作用如何影响长期土壤碳动态。
虽然目前用于此处涉及的组学每个步骤的程序种类繁多,但一些趋势正开始出现,例如宏基因组学和宏转录组学的质量检查和组装步骤。更详细的报告标准将导致研究之间更好的可重复性和可比性。改进的报告也将有助于阐明哪些程序更适合真菌分析。
组学技术不能在真空中进行分析——它们是强大的工具,需要精确的问题、原位背景以及对其局限性的承认。真菌生态学家只有通过选择正确的技术来完成工作,并以标准格式报告数据和结果,才能最充分地利用这些工具。提高可重复性和透明度将允许进行更严格的研究,并为促进数据重用和扩展我们集体理解的数据库贡献更多信息。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号