SysLM:融合因果与深度学习模型的微生物组纵向系统研究新范式
《BMC Genomics》:A systematic longitudinal study of microbiome: integrating temporal-spatial dimensions with causal and deep learning models
【字体:
大
中
小
】
时间:2025年11月22日
来源:BMC Genomics 3.7
编辑推荐:
本研究针对纵向微生物组数据存在缺失值、信号稀疏及可解释性不足等挑战,提出SysLM框架,通过SysLM-I模块整合元数据与特征增强策略,结合TCN-BiLSTM精准推断缺失值;SysLM-C模块构建三层次因果空间,实现多类型生物标志物(如差异、网络、核心、动态标志物)的系统筛选。该模型在多个数据集中显著提升插补与分类性能,并揭示溃疡性结肠炎(UC)的微生物新机制,为精准医疗提供新思路。
在人体这个复杂的生态系统中,微生物群落如同隐形的器官,深刻影响着我们的健康与疾病。随着高通量测序技术的飞速发展,科学家们得以一窥这些微小生命的动态变化。然而,纵向研究——即在不同时间点对同一个体的微生物组进行追踪——虽然能捕捉到微生物群落随时间的演变及其与疾病进程的关联,却常常被数据缺失、信号稀疏、个体间差异大以及模型难以解释等问题所困扰。这些“拦路虎”使得从海量数据中精准挖掘具有生物学意义的微生物标志物变得异常艰难,也限制了其在临床诊断和个性化治疗中的应用潜力。
为了解决这些难题,发表在《BMC Genomics》上的研究论文“A systematic longitudinal study of microbiome: integrating temporal-spatial dimensions with causal and deep learning models”提出了一套名为SysLM的创新性深度学习框架。该研究由Wang等人完成,旨在系统性地分析纵向微生物组数据,不仅力求填补数据中的“空白”,更希望揭示微生物与健康之间的因果联系,为精准医疗开辟新的道路。
为了开展这项研究,作者们整合了六个公开的纵向微生物组数据集(DIABIMMUNE, BONUS-CF, DiGiulio, PROTECT, iHMP-IBD, iHMP-T2D),涵盖了自身免疫病、囊性纤维化(CF)、早产、炎症性肠病(IBD)和2型糖尿病(T2D)等多种疾病。研究核心技术方法包括:1)SysLM-I模块,使用时序卷积网络(TCN)和双向长短期记忆网络(BiLSTM)结合元数据和特征增强策略进行缺失值推断,并引入基于香农指数和Bray-Curtis距离的多样性损失函数;2)SysLM-C模块,构建三个因果空间(语义向量因果空间、静态因果空间、动态因果空间),融合焦点损失(Focal Loss)、因果损失、重构损失等多种损失函数,实现疾病分类和多类型生物标志物的因果发现。
研究人员首先对模型的关键参数进行了敏感性分析。在SysLM-I中,确定了多样性损失权重wα和wβ均为1e-5时模型表现最优。对于SysLM-C,则根据数据集中正负样本的不平衡比例,动态调整了重构损失、因果损失、动态因果损失和一致性损失的权重组合。消融实验进一步证实了这些核心模块和损失函数对于模型性能的必要性,移除任一组件都会导致效果下降。
在评估缺失值推断能力时,SysLM-I与BRITS、CATSI、DeepMicroGen等深度学习方法以及均值、中位数等简单统计方法进行了对比。结果表明,SysLM-I在绝大多数实验(尤其是在门到属水平)中,在MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)和R2(决定系数)等指标上均优于或与其他最佳方法持平。更重要的是,通过比较推断值与真实值之间的α多样性和β多样性,发现SysLM-I能更好地保持微生物群落的生态结构,其推断结果具有更高的生物学合理性。
在下游分类任务中,使用SysLM-I推断的数据训练的模型表现最为稳定和优异。在应对样本不平衡问题时,焦点损失(Focal Loss)在AUC(曲线下面积)和AUPR(精确率-召回率曲线下面积)指标上表现最好。最终,SysLM-C模型在多个数据集和不同分类水平(从门到属)上的分类性能(AUC, AUPR, ACC, F1-score)均优于或与phyLoSTM、CNN-LSTM、DeepMicroGen等基线模型相当,展示了其强大的时空建模和分类能力。
Mantel检验证实了元数据(如国家、性别)与微生物分类单元(OTUs)之间存在显著相关性,支持了在模型中引入元数据的必要性。进一步的统计学检验(Shapiro-Wilk检验、单因素方差分析、Wilcoxon符号秩检验)表明,SysLM方法在插补和分类任务中的性能与其他方法存在显著差异,结果具有统计显著性。
SysLM-C模型通过学习得到的因果有向无环图(DAG)为模型预测提供了可解释的视角。例如,在牛奶过敏分类任务中,因果图揭示了微生物群落(SM)、性别(SG)、国家(SC)与受试者状态(SY)之间的潜在因果路径(如SM→SY←SG, SC→SY),这与已知的饮食、环境通过影响菌群或免疫系统来影响过敏发生的生物学知识相符。类似地,在其他疾病(如CF、IBD)的分类任务中,因果图也揭示了微生物与元数据相互作用共同影响疾病状态的复杂网络,增强了模型的可信度。
研究通过静态和动态因果空间识别了六类微生物生物标志物:
- 1.差异生物标志物:与传统统计方法(如Mann-Whitney U检验)相比,SysLM-C能识别出更多且部分重叠的差异微生物(如牛奶过敏中的p__Firmicutes门、g__Bifidobacterium属),其部分结果与已有文献报道一致,显示了更高的敏感性。
- 2.网络生物标志物:通过Louvain算法对静态因果图进行社区发现,识别出与表型相关的微生物共关联模块。例如,在CF患者中观察到p__Actinobacteria门受到Case节点的正向调控,这与已知的CF患者中该菌门变化的研究一致。
- 3.核心生物标志物:指在时间分辨的DAG中持续与Case节点相连的微生物,暗示其在疾病进展中的长期作用。例如,在IBD患者的CD(克罗恩病)亚型中,p__Cyanobacteria门和p__Proteobacteria门被识别为核心标志物,与已有研究相符。
- 4.动态生物标志物:基于时间变化的DAG,识别出因果权重随时间呈现显著趋势的微生物。例如,在UC患者中,p__Proteobacteria门的因果效应呈增强趋势,而g__Lachnospira属的因果效应在CD患者中呈减弱趋势,反映了它们在疾病过程中角色的动态变化。
- 5.疾病特异性与共享生物标志物:可视化分析揭示了特定疾病独有的微生物标志物以及在不同疾病间共享的标志物。例如,在T2D的IR(胰岛素抵抗)和IS(胰岛素敏感)亚型间发现了15个共享标志物,但在T2D与其他疾病间未发现共享标志物,提示了T2D微生物特征的独特性。同时,也发现了CF与IBD之间、多种食物过敏与IBD之间存在共享标志物,提示了可能的共同致病机制。
利用PICRUSt工具对筛选出的差异生物标志物进行功能预测分析。结果表明,在UC活动期与静止期之间,多个KEGG功能通路(如碳水化合物代谢、氨基酸代谢、脂质代谢、能量代谢、蛋白激酶相关通路)存在显著差异。Spearman相关性分析进一步揭示了特定微生物(如p__Actinobacteria门、p__Bacteroidetes门)与这些代谢通路之间的强关联,为理解微生物如何通过影响宿主代谢参与UC发病机制提供了线索。
统计显示,SysLM-I在插补任务中相较于其他深度学习模型具有一定效率优势。SysLM-C在分类任务中的时间开销与部分先进模型相当,但仍有优化空间。
综上所述,Wang等人开发的SysLM框架成功地将深度学习与因果建模相结合,为纵向微生物组数据的分析提供了系统、精准且可解释的解决方案。它不仅有效处理了数据缺失问题,还深入挖掘了微生物与疾病间的动态因果关联,系统识别了多类具有潜在生物学意义的微生物标志物,并通过功能分析揭示了其可能的作用通路。这项研究为理解微生物在疾病发生发展中的作用提供了多维度视角,标志着微生物组研究向可解释、因果推断和临床转化迈出了重要一步,为未来开发基于微生物组的诊断工具和靶向治疗策略奠定了坚实的方法学基础。当然,该模型在应对更复杂的缺失机制、处理极稀疏的物种水平数据以及进行实验验证方面仍需进一步探索。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号