《Alzheimers & Dementia》:A vision–language foundation model for Alzheimer's disease diagnosis using MRI and clinical data
编辑推荐:
本刊推荐:本研究提出阿尔茨海默病语言与图像预训练模型(ADLIP),创新性地融合3D磁共振成像(MRI)与结构化临床文本数据,通过多教师知识蒸馏(MTKD)策略和对比学习框架实现跨模态表征对齐。该模型在零样本诊断、三类分类及纵向预测中均显著优于基线模型(CLIP),且在不同种族队列中展现优异泛化能力,为阿尔茨海默病(AD)的早期精准诊断提供了可解释、可泛化的多模态人工智能解决方案。
1 背景
阿尔茨海默病(AD)作为一种神经退行性疾病,其早期可靠诊断因疾病进展异质性和临床表现多样性而面临挑战。近年来,融合神经影像与临床数据的多模态方法展现出潜力,但跨模态数据有效整合与泛化能力不足仍是瓶颈。传统单模态方法(如仅依赖MRI或文本)难以充分利用多模态数据的互补性,而现有多模态融合模型常将脑脊液(CSF)生物标志物或临床文本视为协变量,未能充分捕捉模态间复杂关联。
对比语言-图像预训练(CLIP)等通用领域模型的成功启示了对比学习在多模态融合中的潜力。医学领域虽已出现BioMedCLIP、病理语言与图像预训练(PLIP)等模型,但其多基于二维图像,未能充分利用三维医学影像(如MRI T1加权图像)的空间信息,而三维数据对捕捉AD相关的脑结构细微变化(如皮质萎缩)至关重要。
2 方法
2.1 数据集
研究使用阿尔茨海默病神经影像倡议(ADNI)数据集,包含841名参与者(认知正常[CN]231人、轻度认知障碍[MCI]411人、AD199人)的3396次纵向MRI扫描。数据涵盖MRI、PET、APOE基因型、CSF生物标志物(Aβ、p-tau、t-tau)及认知评估(MMSE、FAQ)。外部验证采用健康与衰老脑研究—健康差异(HABS-HD)数据集,包含652名以黑人为主的参与者,用于评估模型跨种族泛化能力。
2.2 数据预处理
MRI数据通过FastSurfer流程预处理,包括颅骨剥离和格式转换。临床文本数据将MMSE分数、APOE基因型、CSF生物标志物数值及FAQ项目分数转化为语义化描述(如“需要财务帮助”),并压缩至77个令牌以内以适配模型输入。
2.3 模型架构与训练策略
ADLIP框架包含3D DenseNet图像编码器和Bio_ClinicalBERT文本编码器,通过对比学习将模态投影至共享嵌入空间。首先通过多教师知识蒸馏(MTKD)训练三维图像编码器:分别训练AD vs. MCI和MCI vs. CN的二分类模型作为教师模型,引导学生模型(DenseNet)融合两类知识,提升三类分类(AD/MCI/CN)性能。对比学习采用InfoNCE损失函数,优化图像-文本对相似性对齐。
3 结果
3.1 零样本分类与MMSE预测
ADLIP在零样本诊断任务中准确率达48%(95% CI: 43%–53%),显著优于原始CLIP(1%)和微调CLIP(33%)。在MMSE分数预测中,ADLIP输出边界合理,而CLIP预测值固定为15,微调CLIP出现超界预测。
3.2 纵向预测一致性
对135次纵向扫描的分析显示,AD患者正确预测分数随时间稳定(基线-0.06±0.39,24个月-0.14±0.21),而错误查询(如CN标签)分数持续下降,表明模型预测与临床轨迹一致。MCI组向AD标签的查询分数随病程上升,进一步验证模型对疾病进展的敏感性。
3.3 跨种族泛化能力
在HABS-HD数据集上,ADLIP零样本分类准确率达64%(95% CI: 60%–67%),优于微调CLIP(59%)和原始CLIP(26%),且MMSE预测无超界值,证明其在不同种族群体中的稳健性。
4 讨论
ADLIP通过对比学习构建了MRI与临床文本的结构化知识图谱,克服了传统单模态模型的局限性。多教师知识蒸馏策略有效缓解了AD、MCI、CN间的分类模糊性问题。模型在纵向分析和跨种族验证中表现出的稳定性与泛化能力,凸显其作为AD早期诊断工具的潜力。未来工作可扩展至多模态影像(如扩散MRI、PET)及更多生物标志物(如Aβ42、p-tau217),进一步丰富AD知识图谱。
亮点
- •
ADLIP是首个整合3D MRI与临床文本的视觉-语言基础模型,支持零样本预测且无需任务特定微调。
- •
模型在种族多样性队列中保持性能,促进临床公平应用。
- •
纵向评估显示预测分数与疾病进展一致,适用于病程监测。
局限性
研究未纳入扩散MRI或PET等多模态影像数据,纵向样本量有限,且生物标志物整合不够全面。未来需扩大数据集规模与多样性,以提升模型普适性。