编辑推荐:
帕金森病(PD)作为常见的神经退行性疾病,其与肠道微生物组的关系备受关注。研究人员开展了基于机器学习的 PD 肠道微生物组研究。结果发现,微生物组模型可区分 PD 患者,但通用性欠佳。该研究为 PD 诊断和治疗提供了重要参考。
帕金森病(Parkinson’s disease,PD)是一种常见的神经退行性疾病,仅次于阿尔茨海默病,给患者的生活和健康带来了极大的影响。随着人口老龄化的加剧,PD 患者数量预计将持续增加,到 2050 年全球可能会达到约 1200 万。目前,PD 的发病机制尚未完全明确,虽然少数病例被认为与遗传因素有关,但环境因素在疾病发展中起着至关重要的作用。
PD 的一个显著特征是中枢神经系统(central nervous system,CNS)中出现含有错误折叠的 α - 突触核蛋白(α - synuclein,αSyn)的路易小体,这会导致神经元毒性和死亡,进而引起多巴胺能神经元的丢失和多巴胺水平的下降,这也是 PD 患者运动障碍的分子机制。然而,PD 的症状不仅局限于运动方面,还包括许多非运动症状,其中胃肠道(gastrointestinal,GI)症状尤为常见,如胃轻瘫、肠道炎症、肠道通透性增加和便秘等。令人惊讶的是,这些 GI 症状可能在运动症状出现之前数年就已存在,例如便秘可能在 PD 诊断前 20 年就出现,这表明肠道健康与 PD 之间存在着密切的联系。
近年来,越来越多的研究表明肠道微生物组可能在 PD 的发生和发展中发挥重要作用。然而,目前对于与 PD 相关的肠道微生物组特征仍缺乏共识,也没有对其诊断价值进行全面的多研究评估。此外,虽然已有研究尝试利用肠道微生物组特征构建机器学习(machine learning,ML)分类模型来区分 PD 患者和健康对照,但这些模型的准确性和通用性仍有待提高。因此,开展一项大规模的研究来深入探讨 PD 与肠道微生物组的关系,开发更准确、更具通用性的诊断模型具有重要的意义。
为了解决这些问题,来自欧洲分子生物学实验室(European Molecular Biology Laboratory)等机构的研究人员开展了一项大规模的荟萃分析研究。他们收集了来自 11 个国家、4 大洲的 22 个病例对照研究的 4489 个样本,这些样本通过 16S 核糖体 RNA 基因扩增子测序(16S ribosomal RNA gene amplicon sequencing,16S)和 Shotgun 宏基因组测序(shotgun metagenomics sequencing,SMG)对 PD 患者和健康对照的粪便微生物组进行了分析。研究人员利用这些数据评估了基于肠道微生物组数据的 ML 模型区分 PD 患者和健康对照的准确性,并进行了最大规模的 PD 肠道微生物组荟萃分析,以确定与疾病相关的原核生物分类群和微生物代谢功能。
该研究主要采用了以下关键技术方法:
- 数据收集与处理:收集了大量已发表研究的 16S 和 SMG 数据,对 16S 数据使用 DADA2 算法处理,得到扩增子序列变体(amplicon sequence variants,ASVs) ,并进行引物去除、质量过滤等操作;对 SMG 数据使用 mOTUs v3.0 进行分类学分析,同时进行功能注释和数据标准化处理。
- 统计分析:运用 PERMANOVA 等方法分析微生物组组成的差异,使用 Agresti 广义优势比(Generalised Odds Ratios)评估分类群的差异丰度,并通过随机效应荟萃分析和 Benjamini - Hochberg 方法校正 p 值 。
- 机器学习模型构建:使用 SIAMCAT 工具包构建多种 ML 模型,如 Ridge 回归、随机森林等,通过交叉验证评估模型性能,包括研究内交叉验证(within - study cross - validation,CV)、研究间验证(cross - study validation,CSV)和留一研究验证(leave - one - study - out validation,LOSO)。
下面来看看具体的研究结果:
- 数据集概述和 β 多样性分析:研究人员处理的样本数量比以往 PD 荟萃分析多,通过 β 多样性分析发现,样本并未根据疾病状态聚类,疾病状态对微生物组组成方差的解释率较低,而研究来源对微生物组组成方差的解释率较高,这突出了不同研究间微生物组组成的高变异性。
- 机器学习方法比较:研究人员应用多种 ML 模型对各数据集进行分析,发现不同算法和数据处理策略下模型准确性差异较大。在 16S 数据中,随机森林分类器表现较好;在 SMG 数据中,Ridge 回归和 LASSO 算法表现更优。且基于 SMG 数据构建的模型在研究内 CV 中的平均 AUC 更高,变化更小。
- ML 模型的跨研究可移植性:研究发现,虽然特定研究的 PD 模型在研究内 CV 中表现出较高的准确性,但在跨研究验证(CSV)中准确性显著降低,这表明模型的通用性较差。不过,通过留一研究验证(LOSO)发现,合并多个研究的数据进行模型训练可提高模型性能,且基于 SMG 数据构建的模型在 LOSO 验证中的平均 AUC 更高。此外,研究还发现即使基于少量肠道微生物特征构建的模型,在多研究数据训练后也能以合理的准确性区分 PD 患者和健康对照。
- 跨疾病预测:研究人员用 PD 模型对其他神经退行性疾病(如阿尔茨海默病、多发性硬化症)的数据进行测试,评估模型的疾病特异性。结果显示,使用 LOSO 模型可显著提高疾病特异性,降低错误预测率。
- 分类学和功能微生物组谱的比较:研究发现基于功能谱构建的模型在区分 PD 患者和健康对照方面,总体表现略逊于基于分类学谱构建的模型。在不同功能谱中,KEGG 直系同源组(KEGG orthologous groups,KO)在区分 PD 患者和健康对照方面表现最佳,但与分类学谱相比,功能谱并未显著提高分类准确性或 ML 模型的可移植性。
- 与 PD 相关的分类群:通过荟萃分析,研究人员发现罗氏菌属(Roseburia)、布劳特氏菌属(Blautia)等多个属的细菌在 PD 患者的微生物组中显著减少,而鲁氏菌属(Ruthenibacterium)等属的细菌则显著增加。同时,研究还发现一些分类群的丰度变化可能与性别、年龄或药物使用有关,但大部分与 PD 相关的分类群不受这些因素影响。
- 与 PD 相关的肠道微生物基因功能:研究发现 PD 患者的肠道微生物组在复杂多糖和糖的降解模块、氨基酸代谢途径、细菌分泌系统以及外源化合物生物降解和代谢途径等方面存在显著变化。例如,参与色氨酸和酪氨酸代谢的基因在 PD 患者中发生改变,可能影响神经递质的合成;PD 患者肠道微生物组中还富集了与细菌致病性相关的功能,以及参与外源化合物(如农药、溶剂)代谢的基因,这与 PD 的环境风险因素相关。
在讨论部分,研究人员指出,虽然基于肠道微生物组的 ML 模型在大多数研究人群中能够准确区分 PD 患者和健康对照,但模型的通用性较差,这可能与 PD 的异质性以及微生物组研究中样本的多样性有关。不过,合并 SMG 数据进行模型构建可提高模型的通用性,且这些模型在区分 PD 患者和其他神经退行性疾病患者方面表现出更好的疾病特异性。此外,研究还发现 PD 患者的肠道微生物组存在多种变化,包括参与短链脂肪酸(short - chain fatty acids,SCFAs)产生的细菌减少、潜在致病性功能富集以及对外源化合物代谢途径的适应等,这些变化可能通过影响肠道健康和肠道 - 脑轴,对 PD 的发展产生影响。
总的来说,这项研究通过大规模的荟萃分析和机器学习验证,为 PD 与肠道微生物组的关系提供了全面的见解。研究结果不仅有助于深入理解 PD 的发病机制,还为未来开发基于肠道微生物组的 PD 诊断和治疗策略提供了重要的参考依据,在帕金森病的研究领域具有重要的意义。该研究成果发表在《Nature Communications》上,为相关领域的研究开辟了新的方向,有望推动 PD 诊断和治疗的进一步发展。