编辑推荐:
当前真菌功能富集分析工具多针对模式生物,难以满足真菌研究需求,尤其对新物种注释不足。为此,研究人员开发 R 包 FunFEA,支持 COG/KOG、GO、KEGG 注释,可利用公共注释和 eggNOG-mapper 注释生成背景模型,适用于多种真菌,填补了领域空白。
在生命科学领域,真菌的功能研究对理解其生物学过程和生态角色至关重要,而功能富集分析是解读转录组和蛋白质组数据的关键手段。目前,多数功能富集分析工具主要针对经典模式生物,如 g:Profiler、DAVID、ClusterProfiler 等,在真菌研究中存在明显局限性。一方面,这些工具支持的真菌物种范围有限,通常仅覆盖研究较深入的菌株,难以满足对新兴真菌病原体或非模式真菌的分析需求。另一方面,对于新测序或注释不完善的真菌基因组,缺乏可用的功能注释数据库,导致无法进行有效的功能富集分析。此外,现有工具对基于 KOG 分类的富集分析支持不足,而 KOG 在真菌基因组学中是常用的直系同源注释框架。世界卫生组织(WHO)于 2022 年发布的真菌优先病原体列表,进一步凸显了开发专门针对真菌的生物信息学工具的紧迫性。
为解决上述问题,奥地利维也纳工业大学(TU Wien)的研究人员开展了相关研究,开发了名为 FunFEA 的 R 包,并将研究成果发表在《BMC Bioinformatics》上。该研究旨在提供一个专门针对真菌的功能富集分析工具,以满足真菌研究领域对高效、灵活分析工具的需求,推动真菌生物学和致病机制的研究。
研究人员开发的 FunFEA 是一款专为真菌基因组功能富集分析设计的 R 包。其核心目标是克服现有工具在真菌功能富集分析中的局限性,为真菌研究提供更全面、灵活的分析工具。
研究人员主要采用了以下关键技术方法:
- 功能注释处理:支持从公共数据库(如 JGI MycoCosm portal)获取的 COG/KOG、GO、KEGG 注释,以及 eggNOG-mapper 生成的功能预测注释,用于生成背景频率模型。
- 统计分析方法:默认使用单侧超几何检验计算富集度,结合 Benjamini–Hochberg 程序进行多重检验校正,控制错误发现率(FDR),同时支持卡方检验和其他 p 值校正方法。
- 数据可视化:基于 ggplot2 生成可定制的富集分析图,如条形图、棒棒糖图,并支持与 patchwork 包整合,方便多图拼接。
功能富集分析模型构建
FunFEA 提供了构建 COG/KOG、GO 和 KEGG 通路模型的功能。对于 COG,模型由单个数据框表示,包含功能类别、每个类别中的蛋白数量及蛋白列表。GO 模型则分为 “生物过程”“分子功能”“细胞成分” 三个数据框,通过基于图的树结构将蛋白 ID 沿 GO 层次结构向上传播,确保功能注释的全面性。KEGG 通路模型可根据通路类型、类别、名称或酶定义生成,若 KEGG 数据库中注释不可用,还可使用酶委员会(EC)注释生成模型。此外,当基因组的功能注释未公开时,FunFEA 可直接利用 eggNOG-mapper 的输出生成模型,为新基因组的功能富集分析提供了可能。
功能富集分析流程
研究人员以 Derntl 等人(2017)的研究数据为例,演示了 FunFEA 的功能。该研究对比了 xpp1 缺失菌株与 QM6a 野生型亲本菌株,鉴定出 995 个差异表达基因(DEGs)。通过 FunFEA 的核心函数,从 JGI 网站获取的注释生成 KOG、GO 模型,从 KEGG 数据库获取的正交信息生成 KEGG 通路模型。分析结果显示,995 个 DEGs 中,657 个可映射到 KOG 术语,604 个映射到 GO 术语,255 个映射到 KEGG 通路。KOG 富集分析显示,能量产生和转换、氨基酸运输和代谢等类别显著富集;GO 富集分析表明,氨基酸和有机酸代谢过程、氧化还原酶活性分子功能显著富集;KEGG 通路富集分析则突出了氨基酸代谢和碳水化合物代谢等通路。
为验证 FunFEA 对 eggNOG-mapper 注释的兼容性,研究人员使用 eggNOG-mapper 对里氏木霉(Trichoderma reesei)QM6a 的完整蛋白质组进行功能注释,并生成相应模型。重新分析 Derntl 等人的数据,995 个 DEGs 中,785 个映射到 KOG 术语,341 个映射到 GO 术语,264 个映射到 KEGG 通路。富集结果与基于 JGI 注释的分析结果基本一致,验证了 FunFEA 在处理新基因组注释时的有效性。
可视化与数据处理功能
FunFEA 提供了丰富的可视化功能,生成的富集图为 ggplot2 对象,用户可根据需求自定义颜色、标签和主题。例如,通过 generate_kog_plot、generate_go_plot 和 generate_kegg_plot 函数生成的图表,能够清晰展示不同功能类别的富集情况。此外,FunFEA 还包含实用的数据处理函数,可从 GTF/GFF 基因模型注释生成基因名、转录本 ID 和蛋白 ID 的转换表,确保不同标识符在富集分析中的兼容性。
FunFEA 的开发为真菌功能富集分析提供了重要的工具支持。其主要结论如下:
- 填补工具空白:FunFEA 专门针对真菌设计,支持 COG/KOG、GO、KEGG 等多种注释类型,弥补了现有工具在真菌研究中的不足,尤其是对新物种和非模式真菌的分析能力。
- 灵活的模型生成:不仅能利用公共数据库注释生成模型,还能处理 eggNOG-mapper 的输出,为缺乏预注释的新基因组提供了分析途径,扩大了功能富集分析的应用范围。
- 强大的分析与可视化功能:提供了从模型构建、富集分析到结果可视化的完整流程,支持多种统计方法和可视化形式,便于研究人员解读数据。
讨论部分指出,FunFEA 的出现显著提升了真菌功能基因组学的研究能力,尤其在应对新兴真菌病原体和非模式真菌的研究中具有重要价值。尽管存在不支持不同数据库标识符内部转换等局限性,但其灵活性和实用性使其成为真菌研究领域的重要资源。随着预计算模型的不断扩展和功能的持续优化,FunFEA 有望进一步推动真菌功能多样性和通路的研究,为揭示真菌的生物学特性和致病机制提供有力支持。