基于图神经网络预测微生物群落动态:实现废水处理与人体肠道菌群精准预测的新方法
【字体:
大
中
小
】
时间:2025年10月15日
来源:Nature Communications 15.7
编辑推荐:
本研究针对微生物群落动态预测难题,开发了基于图神经网络(GNN)的"mc-prediction"工作流,仅利用历史相对丰度数据即可准确预测废水处理厂(WWTPs)和人体肠道等生态系统中物种级(ASV水平)的微生物动态,预测时间最长达8个月,为微生物生态系统管理提供了强大工具。
在复杂的微生物生态系统中,理解物种水平的丰度动态是管理微生物生态系统的关键,但这仍然是一个重大挑战。在废水处理厂(WWTPs)中,过程关键细菌的存在和丰度对于去除或回收污染物至关重要。然而,单个物种的波动往往没有重复模式,准确预测这些动态对于防止系统故障和指导工艺优化具有重要意义。长期以来,研究人员试图开发能够预测微生物群落时间动态的模型,但由于微生物系统的复杂性和相互作用网络的不可预测性,这一目标始终难以实现。
传统的微生物群落研究多依赖于环境参数和机制性组件,但在实际应用中,获取一致、可靠和详细的环境参数对于许多生态系统(包括WWTPs)来说十分困难甚至不可能。此外,对其他非生物或生物相互作用(如微生物的生长速率或捕食关系)的了解有限,使得包含机制性组件变得极具挑战性。因此,开发一种仅基于历史相对群落组成时间序列的预测模型显得尤为重要。
在这项发表于《Nature Communications》的研究中,Andersen等人开发了一种基于图神经网络(GNN)的机器学习方法,用于准确预测复杂微生物群落中单个微生物的未来动态,分辨率达到最高水平(扩增子序列变异,ASV水平)。研究人员以活性污泥生态系统为案例研究,使用了来自丹麦24个不同全规模WWTPs的全面微生物数据集,包含4709个样本,采集时间跨度3-8年,每月采集2-5次。这个广泛的时间序列既捕捉了操作波动,也包含了季节性变化,而且没有纳入环境变量。
研究团队开发了"mc-prediction"工作流,该工作流基于专门为多变量时间序列预测设计的图神经网络方法,能够预测WWTPs生态系统中所有丰富物种的动态,准确预测10-15个未来时间点(相当于提前2-3个月)。对于一些物种,当基于3-8年高分辨率数据集进行训练时,甚至可以预测4-6个月后的情况,而且不需要额外的元数据。
研究采用的主要技术方法包括:从24个丹麦全规模污水处理厂采集4709个活性污泥样本;通过16S rRNA扩增子测序和MiDAS 4生态系统特异性分类数据库进行物种级分类;使用四种不同的预聚类方法(生物功能聚类、图网络交互强度聚类、改进深度嵌入聚类和排名丰度聚类)优化预测精度;开发基于图神经网络的多元时间序列预测模型,包含图卷积层、时间卷积层和全连接神经网络输出层;采用按时间顺序的三分法将数据集分为训练集、验证集和测试集;使用Bray-Curtis相异度等三种指标评估预测准确性。
General prediction accuracy and the effect of pre-clustering ASVs
为了最大化预测准确性,研究人员测试和评估了四种不同的预聚类方法对模型训练的影响。其中一种方法是根据已知的生物功能进行聚类,将ASVs按照MiDAS Field Guide中的5个重要生物功能聚类:聚磷酸盐积累 organisms (PAOs)、糖原积累 organisms (GAOs)、丝状细菌、氨氧化细菌(AOB)和亚硝酸盐氧化细菌(NOB)。此外,还测试了使用改进深度嵌入聚类(IDEC)、按排名丰度分组聚类以及基于图网络交互强度的聚类方法。
预测准确性使用3种不同指标(Bray-Curtis、平均绝对误差和均方误差)对每种聚类类型和每个WWTP测试数据集进行评估。结果显示,当模型在基于图网络交互强度或排名丰度的聚类上进行训练时,获得了最好的预测准确性。值得注意的是,按生物功能聚类通常导致比其他聚类方法更低的预测准确性。基于图网络交互强度的图预聚类被选为剩余结果的分析方法,因为它实现了最佳的整体准确性。
Predicting the dynamics of key bacteria in wastewater treatment
研究人员评估了4800个单独时间序列预测(200个ASVs*24个数据集)的预测准确性。在24个WWTPs中,共有1182个不同的ASVs属于每个工厂的前200名,其中188个属于定义的功能组之一。当为每个ASV单独计算时,测试数据集上真实值和预测值之间的平均绝对百分比误差(MAPE)中位数在14.2%到17.7%之间。这意味着,如果一个ASV的真实相对丰度为10.0%,MAPE值为15.0%,预测的相对丰度将在8.5-11.5%之间。
为了详细说明这些发现,研究人员以Mariagerfjord WWTP数据集为例,深入研究了几个过程关键细菌。选择了具有不同生态功能和丰度模式的3个相关分类群:Ca. Microthrix parvicella (ASV2),一种常见的问题丝状物种;Tetrasphaera (ASV1),全球WWTPs中最丰富的PAO;以及Nitrospira defluvii (ASV24),全球最普遍的NOB。
Predicting the dynamics of entire microbial communities
为了评估该方法如何用于预测整个微生物群落的动态,研究人员将每个WWTP的200个最丰富ASVs的单独训练模型的预测值组合起来。基于Bray-Curtis相异度的主坐标分析(PCoA)用于可视化样本点之间的距离差异。在大多数情况下,预测样本与真实样本并不完全重叠,一些ASVs的不准确预测影响了计算出的真实样本和预测样本之间的相异度,即使大多数ASVs显示出准确的预测。
The effect of prediction window lengths on prediction accuracy
到目前为止提出的预测都是对所有数据集使用10个样本的未来预测窗口进行的。为了评估不同预测窗口长度对预测准确性的影响,以及在不牺牲太多准确性的情况下可以预测到未来的多远,研究人员测试了3、5、10、15和20个样本的未来预测窗口长度。正如预期的那样,更长的预测窗口导致整体预测准确性降低,然而,即使预测了20个样本,一些聚类仍然足够准确,可以有用。
Predicting community dynamics in other environments
为了评估工作流在其他生态系统中的预测准确性,研究人员测试了来自其他研究的三个不同数据集:来自人类肠道的一年数据集、来自沿海海洋生态系统的17年真菌环境DNA时间序列,以及来自香港另一个市政WWTP的5年数据集。工作流能够为人类肠道数据集提供良好的预测准确性,通常与24个WWTP数据集相当(Bray-Curtis相异度0.21-0.22)。相比之下,工作流无法预测沿海海洋数据集中的真菌群落动态,主要原因是该数据集极其稀疏和零膨胀,并且相对丰度波动极端。
研究结论表明,基于图神经网络的"mc-prediction"工作流能够仅使用历史相对丰度时间序列准确预测复杂微生物群落在物种(ASV水平)上的时间动态。该方法在WWTPs生态系统中的预测准确性高,可预测10-15个未来时间点(相当于提前2-3个月),且不需要额外的元数据。由于图神经网络方法的通用性,该工作流可应用于任何微生物生态系统,只要存在高质量、高分辨率的微生物丰度数据时间序列。
讨论部分强调,这项研究代表了微生物生态系统监测和管理的重大进步,在工程生态系统和自然生态系统中,预测单个物种动态可以改善工程生态系统中的操作性能,或在临床环境中支持健康监测。特别是在废水处理厂,获得关键细菌的准确预测对于管理和操作具有巨大价值。例如,由于丝状细菌(如Ca. Microthrix)过度生长引起的膨胀和污泥沉降性问题在全球范围内很常见,准确的预测允许WWTP操作人员及时采取行动,既避免问题又降低运营成本。
类似的实际应用可以开发用于其他生态系统,例如人类肠道,预测关键微生物的动态可能改善与肠道微生物群失衡相关的个性化健康管理,如炎症性肠病和肠易激综合征、肥胖或2型糖尿病。
基于研究发现,研究人员提出了使用"mc-prediction"工作流获得准确预测的建议:如果数据集通过现代高通量DNA测序方法获得,必须使用一致且高度标准化的方法;需要属水平或最好是种水平的分辨率;数据集必须包含至少100个样本;数据集必须是连续的;如果数据集来自自然环境,应至少跨越一年,最好几年,以捕捉任何潜在的季节性变化。
这项研究的创新之处在于首次实现了仅基于历史丰度数据就能准确预测多种生态系统中微生物群落动态的方法,为微生物生态系统的管理和干预提供了强有力的工具,具有广泛的应用前景和重要的实践价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号