运用机器学习挖掘阿尔茨海默病生物标志物:突破与展望

【字体: 时间:2025年03月04日 来源:Fluids and Barriers of the CNS 5.9

编辑推荐:

  研究人员针对阿尔茨海默病(AD)诊断难题,分析脑脊液蛋白组数据,发现新候选标志物,助力 AD 诊断研究。

  《运用机器学习挖掘阿尔茨海默病生物标志物:突破与展望》
阿尔茨海默病(Alzheimer’s disease,AD),这个名字听起来或许有些陌生,但它所带来的影响却十分广泛。在全球范围内,大约有 5000 万人正遭受着 AD 的困扰,而且随着人们寿命的延长,预计到 2050 年,这个数字将飙升至 1.5 亿。AD 是一种与衰老相关的神经退行性疾病,患者的大脑会逐渐出现病变,导致认知能力下降、记忆力减退等症状,给患者的生活和家庭带来了沉重的负担。

目前,AD 的临床诊断主要依靠病史、认知测试和神经学检查,再结合脑脊液(cerebrospinal fluid,CSF)或成像生物标志物来辅助判断。然而,这些方法存在一定的局限性,比如无法在疾病早期准确诊断,而且一些生物标志物在不同患者群体中的有效性也有待验证。特别是对于那些同时患有其他神经系统疾病的患者,如特发性正常压力脑积水(idiopathic normal pressure hydrocephalus,iNPH),准确诊断 AD 的难度更大。iNPH 是一种 CSF 动力学紊乱疾病,它与 AD 有一些相似的症状,并且患者患 AD 的风险更高。因此,寻找更可靠的生物标志物来帮助早期诊断 AD,并了解这些生物标志物在不同患者群体中的差异,成为了当前痴呆症研究领域的关键问题。

为了解决这些问题,来自查尔姆斯理工大学和哥德堡大学等机构的研究人员开展了一项极具意义的研究。他们的研究成果发表在《Fluids and Barriers of the CNS》杂志上。

在这项研究中,研究人员运用了多种关键技术方法。他们使用了串联质谱标签(Tandem Mass Tag,TMT)蛋白质组学技术,对 iNPH 患者的脑脊液样本进行分析。这些样本包括腰椎脑脊液和脑室脑脊液,为研究提供了丰富的数据来源。同时,研究人员还运用了机器学习算法,对高维蛋白质组学数据进行处理和分析。在数据处理过程中,他们进行了数据预处理,包括去除异常值、处理缺失值和校正批次效应等操作;还使用了合成少数过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)进行数据增强,并通过五折交叉验证来选择和验证模型。

下面来看看具体的研究结果:

  1. 批次效应的影响:研究人员通过 t-SNE 降维可视化发现数据中存在明显的 TMT 批次簇。通过预测 TMT 批次来检验批次效应对机器学习模型的影响,结果表明,应用 ComBat 校正批次效应后,模型识别正确批次的准确率显著下降,这说明 ComBat 能有效减轻批次效应。但有趣的是,ComBat 对组织组别的预测似乎没有影响,这意味着批次效应的去除可能并非总是必要的。
  2. 模型性能表现:研究人员使用蛋白质脑室数据预测从 Aβ-T-到 Aβ+T+的诊断变化。结果显示,在众多模型中,随机森林模型表现最佳,其 AUC 达到了 0.84(± 0.03)。此外,研究还发现,去除含有缺失值的特征比进行插补能构建出更强的模型,而且减少特征空间比保留更多特征更有利于模型训练。
  3. 生物标志物分析
    • 已有的生物标志物:研究人员对四种已知的在神经退行性疾病中丰度会发生变化的 CSF 蛋白进行研究,包括神经丝轻链多肽(neurofilament light polypeptide,NEFL)、14-3-3 蛋白 γ(14-3-3 protein gamma,YWHAG)、神经元五聚素 - 2(neuronal pentraxin-2,NPTX2)和脂肪酸结合蛋白 - 心脏型(fatty acid-binding protein - heart,FABP3)。通过 Kruskal-Wallis 检验和事后 Dunn 检验分析这些蛋白在不同组织组间的差异,结果发现,在脑室亚组中,FABP3 蛋白在 Aβ+T+组与 Aβ-T-组的丰度存在显著差异;在腰椎亚组中,YWHAG 蛋白在 Aβ+T+组与 Aβ-T-组的丰度差异显著。
    • 新发现的生物标志物:通过特征选择,研究人员发现了一些新的候选生物标志物。在所有 k 折交叉验证中,肌肉生长抑制素(Myostatin,MSTN)、谷氨酸 - 草酰乙酸转氨酶 1(Glutamic-Oxaloacetic Transaminase 1,GOT1)和钙 / 钙调蛋白依赖性蛋白激酶 IIγ(Calcium/Calmodulin Dependent Protein Kinase II Gamma,CAMK2G)这三种蛋白质被选中。其中,GOT1 蛋白在不同组织组间的差异显著,其在 Aβ+T+组织组的丰度明显高于 Aβ+T-和 Aβ-T-组。


研究结论和讨论部分指出,高维数据、小样本队列等问题给研究带来了挑战。在处理高维数据时,如何平衡去除含有过多缺失数据的特征和插补这些值是关键;小样本队列则可能导致偏差和过拟合。研究人员通过五折交叉验证和在每个 k 折内进行特征选择等方法,一定程度上解决了这些问题。此外,研究还发现,现有的用于单一神经退行性疾病的生物标志物,在区分多种疾病时存在不足,比如在 iNPH 合并 AD 和不合并 AD 的患者中,就需要新的生物标志物来进行区分。而且,腰椎和脑室 CSF 中的生物标志物存在差异,这表明在研究和诊断中,需要区别对待这两种样本。

总的来说,这项研究通过对 iNPH 患者的脑脊液进行蛋白质组学分析,发现了一些新的 AD 候选生物标志物,为 AD 的早期诊断提供了新的方向。同时,研究也强调了在研究过程中,合理处理数据和选择合适的机器学习方法的重要性。未来的研究可以进一步扩大样本队列,结合多模态数据,深入探究这些生物标志物的作用机制,为 AD 的诊断和治疗带来更多的突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号