基于多模态对比学习的阿尔茨海默病视觉-语言基础模型(ADLIP)研究

《Alzheimers & Dementia》:A vision–language foundation model for Alzheimer's disease diagnosis using MRI and clinical data

【字体: 时间:2025年12月29日 来源:Alzheimers & Dementia 11.1

编辑推荐:

  本刊推荐:本研究提出阿尔茨海默病语言与图像预训练模型(ADLIP),创新性地融合3D磁共振成像(MRI)与结构化临床文本数据,通过多教师知识蒸馏(MTKD)策略和对比学习框架实现跨模态表征对齐。该模型在零样本诊断、三类分类及纵向预测中均显著优于基线模型(CLIP),且在不同种族队列中展现优异泛化能力,为阿尔茨海默病(AD)的早期精准诊断提供了可解释、可泛化的多模态人工智能解决方案。

  

1 背景

阿尔茨海默病(AD)作为一种神经退行性疾病,其早期可靠诊断因疾病进展异质性和临床表现多样性而面临挑战。近年来,融合神经影像与临床数据的多模态方法展现出潜力,但跨模态数据有效整合与泛化能力不足仍是瓶颈。传统单模态方法(如仅依赖MRI或文本)难以充分利用多模态数据的互补性,而现有多模态融合模型常将脑脊液(CSF)生物标志物或临床文本视为协变量,未能充分捕捉模态间复杂关联。
对比语言-图像预训练(CLIP)等通用领域模型的成功启示了对比学习在多模态融合中的潜力。医学领域虽已出现BioMedCLIP、病理语言与图像预训练(PLIP)等模型,但其多基于二维图像,未能充分利用三维医学影像(如MRI T1加权图像)的空间信息,而三维数据对捕捉AD相关的脑结构细微变化(如皮质萎缩)至关重要。

2 方法

2.1 数据集

研究使用阿尔茨海默病神经影像倡议(ADNI)数据集,包含841名参与者(认知正常[CN]231人、轻度认知障碍[MCI]411人、AD199人)的3396次纵向MRI扫描。数据涵盖MRI、PET、APOE基因型、CSF生物标志物(Aβ、p-tau、t-tau)及认知评估(MMSE、FAQ)。外部验证采用健康与衰老脑研究—健康差异(HABS-HD)数据集,包含652名以黑人为主的参与者,用于评估模型跨种族泛化能力。

2.2 数据预处理

MRI数据通过FastSurfer流程预处理,包括颅骨剥离和格式转换。临床文本数据将MMSE分数、APOE基因型、CSF生物标志物数值及FAQ项目分数转化为语义化描述(如“需要财务帮助”),并压缩至77个令牌以内以适配模型输入。

2.3 模型架构与训练策略

ADLIP框架包含3D DenseNet图像编码器和Bio_ClinicalBERT文本编码器,通过对比学习将模态投影至共享嵌入空间。首先通过多教师知识蒸馏(MTKD)训练三维图像编码器:分别训练AD vs. MCI和MCI vs. CN的二分类模型作为教师模型,引导学生模型(DenseNet)融合两类知识,提升三类分类(AD/MCI/CN)性能。对比学习采用InfoNCE损失函数,优化图像-文本对相似性对齐。

3 结果

3.1 零样本分类与MMSE预测

ADLIP在零样本诊断任务中准确率达48%(95% CI: 43%–53%),显著优于原始CLIP(1%)和微调CLIP(33%)。在MMSE分数预测中,ADLIP输出边界合理,而CLIP预测值固定为15,微调CLIP出现超界预测。

3.2 纵向预测一致性

对135次纵向扫描的分析显示,AD患者正确预测分数随时间稳定(基线-0.06±0.39,24个月-0.14±0.21),而错误查询(如CN标签)分数持续下降,表明模型预测与临床轨迹一致。MCI组向AD标签的查询分数随病程上升,进一步验证模型对疾病进展的敏感性。

3.3 跨种族泛化能力

在HABS-HD数据集上,ADLIP零样本分类准确率达64%(95% CI: 60%–67%),优于微调CLIP(59%)和原始CLIP(26%),且MMSE预测无超界值,证明其在不同种族群体中的稳健性。

4 讨论

ADLIP通过对比学习构建了MRI与临床文本的结构化知识图谱,克服了传统单模态模型的局限性。多教师知识蒸馏策略有效缓解了AD、MCI、CN间的分类模糊性问题。模型在纵向分析和跨种族验证中表现出的稳定性与泛化能力,凸显其作为AD早期诊断工具的潜力。未来工作可扩展至多模态影像(如扩散MRI、PET)及更多生物标志物(如Aβ42、p-tau217),进一步丰富AD知识图谱。

亮点

  • ADLIP是首个整合3D MRI与临床文本的视觉-语言基础模型,支持零样本预测且无需任务特定微调。
  • 模型在种族多样性队列中保持性能,促进临床公平应用。
  • 纵向评估显示预测分数与疾病进展一致,适用于病程监测。

局限性

研究未纳入扩散MRI或PET等多模态影像数据,纵向样本量有限,且生物标志物整合不够全面。未来需扩大数据集规模与多样性,以提升模型普适性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号