从人类与环境生态系统中区分关键微生物群落变化与正常时间变异性

【字体: 时间:2025年05月16日 来源:Scientific Reports 3.8

编辑推荐:

  微生物群落正常波动与显著变化的区分对理解其动态至关重要。研究人员利用 16S rRNA 基因测序和时间序列分析,对人类肠道与废水微生物组建模。发现长短期记忆(LSTM)模型在预测和检测异常值中表现最佳,为医疗和环境监测提供新工具。

  
微生物组作为 “人体第二基因组”,其动态变化与人类健康及环境稳态紧密相关。然而,如何区分微生物群落的正常波动与关键转变一直是领域难题。例如,在炎症性肠病、肥胖等疾病中,微生物组的异常已被证实,但更细微的关联如神经退行性疾病与微生物动态的关系仍需深入挖掘。此外,环境微生物组(如废水)作为公共健康的 “晴雨表”,其季节性波动与病原体异常增殖的区分也缺乏有效工具。传统统计方法难以处理微生物数据的高维度、非线性及时间依赖性,而机器学习为解决这些问题提供了新方向。

德国杜伊斯堡 - 埃森大学(University Hospital Essen, University of Duisburg-Essen)的研究团队针对这一挑战,开展了微生物组时间序列预测与异常检测研究。他们通过分析人类肠道和废水微生物的 16S rRNA 基因测序数据,比较多种机器学习模型性能,发现长短期记忆(LSTM)模型在预测细菌丰度和识别异常值方面显著优于其他模型,并建立了基于预测区间的关键变化预警方法。该研究成果发表在《Scientific Reports》,为微生物组动态监测提供了跨领域的通用框架。

研究采用的关键技术包括:

  1. 16S rRNA 基因测序:获取人类肠道(粪便、唾液等)和废水样本的微生物丰度数据,涵盖 2 个人类研究队列(如 Caporaso 等人的 396 时间点数据)和 5 个废水处理厂(WWTPs)的长期监测数据(如密尔沃基、芝加哥及德国丁斯拉肯的样本)。
  2. 时间序列分析与机器学习建模:运用 LSTM、门控循环单元(GRU)、随机森林(RF)和向量自回归移动平均(VARMA)模型,通过均方根误差(RMSE)、归一化均方根误差(NRMSE)等指标评估性能。
  3. 预测区间构建与异常值检测:基于 50 个独立 LSTM 模型的预测结果,利用标准正态分布计算 95% 置信区间,识别超出区间的异常丰度值。
  4. 特征重要性分析:结合 SHAP(Shapley Additive exPlanations)和 SCNIC(稀疏相关网络分析),解析关键微生物属的互作网络与模型预测驱动因素。

研究结果


1. LSTM 模型在微生物丰度预测中表现最优


在人类肠道数据中,LSTM 模型的 MAE(平均绝对误差)和 RMSE 显著低于 GRU、RF 和 VARMA 模型。例如,在女性肠道数据集训练中,LSTM 的 MAE 训练值为 3.89,而 VARMA 模型表现最差。尽管部分 LSTM 架构存在过拟合趋势,但通过扩大训练数据集(如整合 4 名个体数据),过拟合现象显著减少,验证了模型的泛化能力。在废水数据中,加入降水、温度等元数据可提升 LSTM 预测精度,但效果因污水处理厂基础设施差异而异(如丁斯拉肯厂因雨污分流系统,降水数据对模型无显著影响)。

2. 预测区间有效识别微生物群落异常变化


通过 50 个 LSTM 模型的集成预测,建立了各菌属的 95% 预测区间。以肠道微生物 Coprobacter 属为例,实测丰度几乎全部落入预测区间,而超出区间的样本被成功标记为异常。在废水监测中,该方法可区分季节性波动与潜在病原体增殖,例如对 ESKAPE 病原体(肠球菌、葡萄球菌等)的丰度异常检测,为公共卫生预警提供依据。

3. 关键菌属的互作网络与模型驱动因素


SHAP 分析显示,Lachnospiraceae 科、Blautia 属等在肠道模型中具有高特征重要性,其中 Blautia 属的丰度与其他菌属呈强正相关,这与其在糖尿病、肥胖中的潜在作用一致。SCNIC 网络分析进一步揭示,模型预测并非依赖单一优势菌,而是多菌属动态互作的结果。例如,Blautia 属通过 Spearman 秩相关系数构建的网络中连接度最高,印证了其在微生物群落中的核心地位。

结论与意义


本研究证实 LSTM 模型在微生物组时间序列分析中的优势,其构建的预测区间为区分正常波动与病理 / 环境压力诱导的关键变化提供了量化工具。在医学领域,该模型可用于重症监护患者的肠道菌群监测,早期预警 sepsis 等并发症;在环境领域,结合废水流行病学可追踪病原体变异与公共卫生风险。尽管存在数据稀疏、元数据异质性等挑战,研究为跨尺度微生物组监测奠定了方法学基础,推动 “One Health” 理念下的人类 - 环境健康整合研究。未来可通过整合宏基因组学、深度学习优化等提升模型性能,进一步拓展其在精准医疗与生态保护中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号