一种用于轻度认知障碍和阿尔茨海默病诊断的全面可解释机器学习框架:开启精准诊断新篇章

【字体: 时间:2025年03月12日 来源:Scientific Reports 3.8

编辑推荐:

  为解决 MCI 和 AD 诊断难题,研究人员构建可解释机器学习框架,提升诊断准确性与可靠性。

  # 开启认知障碍诊断新征程:机器学习框架的创新与突破
在当今社会,痴呆(Dementia)已成为全球第七大死因,严重威胁着人们的健康和生活质量。其中,阿尔茨海默病(Alzheimer’s Disease,AD)作为最常见的痴呆类型,占比高达 60 - 70%。而轻度认知障碍(Mild Cognitive Impairment,MCI)不仅是记忆和思维出现问题的一种状态,更是 AD 的重要风险因素。随着老龄化加剧,如何精准、高效地诊断 MCI 和 AD,成为了医学领域亟待攻克的难题。
传统的诊断方式往往依赖医生的经验和有限的检测手段,难以满足临床需求。人工智能(Artificial Intelligence,AI)技术的兴起,为 MCI 和 AD 的诊断带来了新的希望。然而,在实际应用中,AI 却面临着诸多挑战。医疗数据来源广泛、结构复杂,存在类不平衡(class imbalance)问题,这不仅会引入偏差,还会削弱模型的泛化能力。此外,AI 模型的复杂性使得其输出难以理解和信任,在 MCI 和 AD 诊断这类涉及多方面数据、对诊断建议要求极高的场景中,缺乏透明度和可解释性成为了 AI 应用的一大障碍。

为了打破这些困境,来自希腊雅典国立技术大学电气与计算机工程学院等机构的研究人员开展了一项极具意义的研究,相关成果发表在《Scientific Reports》上。他们致力于构建一个全面的可解释机器学习(Machine Learning,ML)框架,以增强 MCI 和 AD 的诊断能力,确保 ML 模型的解释具有稳健性。

研究人员采用了多种关键技术方法。在数据处理方面,他们从阿尔茨海默病神经影像学倡议(Alzheimer’s Disease Neuroimaging Initiative)获取了 1463 名 60 - 86 岁受试者的医学横断面数据集,包含 449 名健康对照(CN)、740 名 MCI 患者和 274 名 AD 患者。数据涵盖人口统计学、临床数据,以及 154 个来自 T1 加权 MRI 脑扫描的感兴趣区域(ROI)体积测量值和 54 个与 AD 相关的单核苷酸多态性(SNP)数据。对数据进行了强度不均匀性校正、颅骨剥离、组织分割等预处理,并通过线性协变量调整去除年龄、性别和脑体积的影响。在分类模型构建上,研究人员将一对多(One versus All,OVA)和一对一(One versus One,OVO)分类方案与 Bagging 集成学习方法相结合,运用随机森林(Random Forests,RF)、逻辑回归(Logistic Regression,LR)、多层感知器(Multi Layer Perceptron,MLP)、支持向量机(Support Vector Machines,SVMs)、梯度提升(Gradient Boosting,GB)和极端梯度提升(XGBoost)等多种分类器进行训练和评估,并通过 5x4 折嵌套交叉验证优化超参数。为了解释模型预测,研究人员运用了多种可解释性方法,包括基尼指数(Gini index)、SHapley 加性解释(SHAP)、局部可解释模型无关解释(Local Interpretable Model - agnostic Explanations,LIME)、部分依赖图(Partial Dependence Plots,PDPs)和反事实解释等,并通过统一框架计算特征的必要性和充分性。

分类器的判别性能


研究人员对多种分类器在不同分类方案下进行训练和评估。结果显示,OVO 方法的性能优于 OVA,而 Bagging 集成学习方法结合 OVO 分解方案进一步提升了分类性能。在经过超参数调整后,SVM、RF 和 XGBoost 分类器表现出色。其中,SVM 的平衡准确率均值达到 87.5%,F1 分数均值为 90.8%。统计 t 检验表明,除 MLP 外,大多数分类器的性能指标差异不显著。

个体可解释性方法的解释


研究人员对表现最佳的 SVM 和 RF 分类器应用多种可解释性方法。利用基尼指数对基于树的分类器进行解释,发现区分 MCI 和 AD 时,RF 分类器中重要的特征包括右侧下颞叶回、左侧侧脑室等。SHAP 框架用于获取 SVM 分类器的特征重要性排名,发现右侧和左侧侧脑室、右侧内嗅区等特征较为重要。高体积的右侧内嗅区等特征有助于个体被分类为 MCI,而低体积则与 AD 相关。LIME 方法为每个分类器和二元子问题提供局部解释,结果与 SHAP 的全局特征排名相符。PDPs 研究表明,特定 SNP,如 rs429358,会影响个体被诊断为 MCI 或 AD 的概率。

基于特征归因和反事实方法的统一解释


研究人员利用统一框架结合特征归因和反事实解释,增强解释的稳健性。通过 Permute Attack 方法基于反事实解释测量特征重要性,发现之前基于 SHAP 排名靠前的特征在反事实示例中出现频率较高。通过计算必要性和充分性评估特征,结果显示不同反事实生成方法下,特征的必要性和充分性有所不同。总体而言,前 10 个特征在一定程度上对模型输出是充分的,且部分特征的组合具有较高的必要性。

这项研究意义重大。它为 MCI 和 AD 的诊断提供了一个可靠、可解释的机器学习框架,在分类性能上达到了较高水平,且通过多种可解释性方法深入分析了特征的重要性、必要性和充分性。与以往研究相比,该框架综合利用 MRI 脑图像体积测量和遗传数据,探索了多种可解释性方法的互补性,为深入理解疾病机制和提高诊断准确性提供了新的视角。不过,该框架也存在一些局限性,如可解释性方法只能针对每对类别分别提供结果,统一框架对反事实生成方法较为敏感等。未来,研究人员计划在多个队列数据上扩展评估,探索多类别可解释性技术,引入深度学习算法和更多数据模态,进一步完善该框架,为 MCI 和 AD 的诊断和治疗带来更多突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号