编辑推荐:
为解决微生物组多组学数据分析难题,研究人员开展 “Latent Interacting Variable-Effects (LIVE) 建模” 研究。结果显示,LIVE 能有效整合数据、减少特征交互,预测疾病状态。该研究为微生物组数据整合提供新方法,助力疾病机制研究。
在生命科学的微观世界里,微生物组与人体健康的关系一直是研究的热点。尤其是在炎症性肠病(Inflammatory Bowel Disease,IBD)领域,肠道微生物组的变化与疾病的发生、发展紧密相关。IBD 主要包括克罗恩病(Crohn’s Disease,CD)和溃疡性结肠炎(Ulcerative Colitis,UC),患者的肠道微生物组组成和功能出现异常,引发局部和全身的炎症反应,逐渐破坏肠道。目前,虽然对宿主 - 微生物组相互作用的认识在不断加深,但现有的微生物组多组学分析方法却面临诸多挑战。比如,数据维度高,难以处理;无法充分考虑数据类型内部的相关性;多重假设检验负担重等问题。这些问题限制了对 IBD 发病机制的深入理解,也阻碍了新的诊断方法和治疗策略的开发。因此,迫切需要一种新的计算模型,能够更好地整合微生物组多组学数据,揭示 IBD 的进展机制和耐药机制。
在这样的背景下,来自美国普渡大学(Purdue University)和凯斯西储大学(Case Western Reserve University)等机构的研究人员 Javier Munoz Briones 和 Douglas K. Brubaker 开展了一项重要研究。他们提出了一种名为 Latent Interacting Variable-Effects (LIVE) 的建模框架,相关研究成果发表在《BMC Bioinformatics》上。这一研究为微生物组多组学数据的分析带来了新的思路和方法,具有重要的意义。
研究人员为开展此项研究,运用了多个关键技术方法。首先,从公开数据库获取代谢组学、宏基因组学等数据,对 155 名 CD、UC 患者及非 IBD 对照者的数据进行预处理,将相对丰度数据对数转换以稳定方差。接着,利用 MixOmics R 软件包,分别通过稀疏偏最小二乘判别分析(sPLS-DA)和稀疏主成分分析(sPCA)对单组学数据进行处理,筛选特征并降维。然后,基于 sPLS-DA 或 sPCA 得到的结果,通过广义线性模型(GLM)构建多组学元模型,并纳入临床协变量。最后,利用 Spearman 相关性分析、Cytoscape 软件等对模型结果进行分析和可视化 。
下面来看具体的研究结果:
- LIVE 方法概述及微生物组多组学潜在变量构建:LIVE 可整合多组学数据并保留各模态内的协方差结构。监督式 LIVE 通过 sPLS-DA 建模推导潜在变量(LVs),非监督式 LIVE 则借助 sPCA 获得主成分(PCs)。将这些 LVs 或 PCs 作为 GLM 的项,结合临床变量构建模型。研究人员用 LIVE 预测 CD 或 UC 状态,使用来自 PRISM 队列的数据进行模型训练,并用 LLDeep 队列数据验证。在构建模型前,单组学 sPLS-DA 模型显示,代谢组、微生物组和酶数据对疾病状态有一定预测能力,但非结构化整合多组学数据并不能提升预测能力,反而降低模型可解释性。
- 多组学 LVs 与患者年龄结构化整合预测 CD 状态:在监督式 LIVE 中,将单组学 sPLS-DA 模型中最具判别力的 LVs 与患者年龄作为协变量整合到元模型中。主效应模型显示,代谢物 LVs 对预测 CD 状态作用较强。纳入成对交互效应后,发现代谢物 LV2 与微生物酶 LV1 的交互作用,以及代谢物 LV2 与患者年龄的交互作用对区分 CD 患者和对照者有重要意义。通过 Spearman 相关性分析,确定了一些与 CD 相关的代谢物 - 酶对,且发现部分代谢物的丰度与年龄有关。在非监督式 LIVE 中,类似地将最具判别力的 PCs 与年龄整合到 GLM 元模型,也发现了一些与 CD 状态相关的主效应和交互效应 。
- 协变量感知的 LIVE 指标对与 CD 相关特征的优先排序:在监督式和非监督式 LIVE 中,通过 Lasso 惩罚、LV 特征载荷和年龄协变量调整,对与疾病预测相关的细菌、代谢物和微生物酶进行优先排序。监督式 LIVE 结合 Lasso 惩罚和 VIP 分数,确定了与 CD 状态相关的显著相关性。非监督式 LIVE 则通过其他筛选方案也得到了相关结果。利用 Cytoscape 软件构建相关网络,发现随着 VIP 分数阈值提高,网络结构会发生变化,能筛选出更关键的微生物组节点。
- 多组学 LVs 与患者年龄结构化整合预测 UC 状态:对 UC 进行类似 CD 的分析,监督式 LIVE 的主效应模型显示代谢物 LVs 对预测 UC 状态作用显著。成对交互效应模型和优化模型确定了一些与 UC 相关的主效应和交互效应,如代谢物 LV1 与微生物酶 LV2 的交互作用,以及代谢物 LV2 与患者年龄的交互作用。通过 Spearman 相关性分析,发现了一些在 UC 患者和对照者中差异显著的特征交互作用,且部分代谢物的丰度与年龄有关。非监督式 LIVE 的相关模型也对 UC 状态有一定预测能力 。
- 协变量感知的 LIVE 指标对与 UC 相关特征的优先排序:与 CD 研究类似,对 UC 模型中 LIVE 优先排序的交互作用进行分析,确定了一些与 UC 状态相关的显著相关性,并构建相关网络,发现了一些在 UC 中重要的微生物组节点和子网 。
- LIVE 与现有方法的比较及对其他数据集和微生物组的通用性:将 LIVE 与现有微生物组多组学建模方法比较,发现监督式 LIVE - sPLS-DA 单组学模型在预测 CD 和 UC 时性能较高,LIVE 元模型在训练队列中性能与其他方法相当。在验证队列中,LIVE 的性能受临床和人口统计学协变量及样本量影响。此外,LIVE 还成功应用于其他数据集,如 IBD 多组学数据库和阴道微生物组数据,展现了其通用性。
研究结论和讨论部分指出,LIVE 是一种高度可解释的微生物组多组学建模方法。它能将单组学潜在因素与患者临床协变量整合到元模型中,有效减少数据特征数量,降低多重检验负担,识别疾病预测因素,并解释疾病的临床和分子预测指标。LIVE 还发现了一些之前研究报道过的 IBD 相关特征,并且其识别的疾病预测特征与药物反应生物标志物存在共性。通过与其他方法对比,LIVE 在不同数据集和疾病模型中表现出稳定且可比的性能。虽然在某些验证队列中性能有所波动,但这并非 LIVE 方法本身的固有缺陷,而是受疾病类型和样本量等因素影响。总体而言,LIVE 为微生物组多组学数据的整合和解释提供了新的有力工具,在复杂炎症性疾病研究中具有巨大的潜力,有助于推动相关疾病机制研究和治疗策略的开发。