基于Shapley可解释性方法的脑龄与流体智力预测模型特征归因分析

《Neuroinformatics》:Gaining Brain Insights by Tapping into the Black Box: Linking Structural MRI Features to Age and Cognition using Shapley-Based Interpretation Methods

【字体: 时间:2025年10月23日 来源:Neuroinformatics 3.1

编辑推荐:

  本研究针对神经影像数据高维且特征相关性强导致的机器学习模型可解释性难题,系统评估了SHAP、条件Shapley值和SAGE等可解释性方法在全局特征重要性分析中的表现。研究人员通过UK Biobank数据库的39,625例结构MRI数据,构建XGBoost模型预测年龄和流体智力,发现皮层下区域平均强度与脑老化显著相关,而海马体、小脑及额颞叶对流体智力预测贡献突出。该研究为理解脑功能提供了数据驱动的新视角,推动了可解释人工智能在神经科学领域的应用。

  
随着大型神经影像数据库的涌现和计算能力的提升,机器学习已成为分析脑成像数据的重要工具。从精神疾病诊断到痴呆风险预测,从认知表现评估到脑龄预测,算法模型在神经科学领域的应用日益广泛。然而,这些具有高预测准确性的模型往往如同"黑箱",其决策机制难以被人理解。在临床应用中,确保模型预测的可解释性至关重要——这不仅关乎医生对模型的信任建立,更涉及欧盟《通用数据保护条例》等法规对个体决策透明度的要求。
传统回归方法虽然可解释性强,但仅适用于低维数据,难以捕捉神经影像数据中固有的复杂交互效应。可解释人工智能领域虽已提出局部和全局解释方法,但在处理高维、高相关性的神经影像数据时仍存在明显局限。特征排列重要性评估等方法在特征相关时会产生误导,而神经影像数据恰好以高度相关性为典型特征。
针对这一挑战,Julia Kropiunig和Dystein Sorensen在《Neuroinformatics》上发表的研究,系统评估了多种可解释性方法在神经影像数据分析中的表现。他们特别关注如何从局部解释中提取有意义的全局见解,为研究人员提供了实用的方法学指导。
研究方法上,团队利用UK Biobank数据库中39,625名参与者的结构磁共振成像数据,提取了179个脑区特征,包括皮层厚度、面积、体积和平均强度等指标。他们采用XGBoost算法构建预测模型,分别预测年龄和流体智力分数。在可解释性分析方面,重点比较了KernelSHAP(基于特征独立性假设)、条件Shapley值(考虑特征依赖性)以及SAGE(Shapley Additive Global Importance)等方法的优劣。为应对计算挑战,他们还采用了特征分组策略,将脑区根据理论相关性分为16组进行分析。
研究结果显示,在脑龄预测模型中,皮层下区域的平均强度指标表现出最强的预测能力。具体而言,丘脑、苍白球、尾状核、壳核和伏隔核的平均强度与年龄呈现显著关联,但关联方向因脑区而异。例如,丘脑较高平均强度指示较低年龄,而伏隔核较低平均强度对应较低年龄。此外,脑室体积也被识别为重要预测因子,较小脑室体积与较低年龄相关。
条件Shapley值分析将脑室的综合贡献识别为最具预测性,其次是丘脑、伏隔核和苍白球的皮层下测量。SAGE值分析也得出了类似结论,确认脑室以及丘脑和伏隔核的平均强度为最重要预测特征。
在流体智力预测模型中,尽管整体预测性能较低(测试集R2=0.06),但可解释性分析仍揭示了有意义的模式。小脑皮层体积、脑白质、海马体和丘脑体积,以及额叶和颞叶相关测量(如外侧眶额叶皮层和颞上回面积)被识别为流体智力的预测因子。
分组特征重要性评估显示,额叶和颞叶对流体智力预测贡献最大,其次是小脑。海马体、脑白质和丘脑的贡献相对较小但仍具实质性。
方法学比较发现,条件Shapley值在特征重要性排序的一致性上表现最佳(Kendall's τ在0.94-0.99之间),而KernelSHAP在不同数据集间显示出更大变异性。SAGE方法虽然提供了直接连接全局可解释性和局部Shapley值的框架,但其排名一致性相对较低。
研究结论与讨论部分指出,Shapley值为机器学习模型中的特征贡献估计提供了有前景的稳健工具,适用于单观测解释和全局行为研究。尽管全局Shapley值计算具有观测依赖性,但它们提供了一致的特征重要性排序。
在选择使用边际Shapley值(SHAP)还是条件Shapley值时,应与具体解释目标一致。边际Shapley值适用于分析模型行为,而条件Shapley值更适合解释具有复杂底层依赖结构的数据。然而,分析最多30个特征的限制可能对某些研究问题构成挑战;在这种情况下,应采用针对特定研究问题精心策划的分组策略。
该研究还强调,机器学习中的可解释性是一个非常复杂的领域,解决所有可解释性挑战的通用最优工具并不存在。方法的选择取决于数据和解释目标。虽然某些方法在某些情况下可能提供一致且有价值的见解,但在其他情况下可能效果较差,有时甚至会产生误导。需要进一步的研究来改进和扩展现有方法。
从神经科学角度看,该研究证实了平均强度测量在脑老化评估中的价值,这与先前关于T1加权信号强度可间接反映髓磷脂含量、铁浓度和组织水变化等年龄相关神经生物学变化的研究一致。对于流体智力,研究结果支持额颞叶、小脑和海马体在认知功能中的重要作用,与现有文献相符。
值得注意的是,颅内体积(ICV)的处理方式对机器学习模型的特征识别有重要影响。在流体智力模型中,对所有特征进行ICV残差化处理可能无意中在某些特征中引入ICV效应,由于流体智力和ICV之间的相关性,导致驱动脑测量的错误识别。这表明在机器学习模型中,混淆控制策略应谨慎选择,因为包含和排除混淆变量以及对其进行残差化处理,各自在认知特征方面施加不同的解释含义。
总之,这项研究为神经影像领域的研究人员提供了实用的可解释性方法指南,展示了如何通过先进的可解释AI技术从复杂的机器学习模型中提取有意义的神经科学见解。随着可解释人工智能技术的不断发展,这类方法有望在理解脑功能和精神疾病生物标志物识别方面发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号