基于多模态对比学习的阿尔茨海默病视觉-语言基础模型（ADLIP）研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Alzheimers & Dementia》：A vision–language foundation model for Alzheimer's disease diagnosis using MRI and clinical data

【字体：大中小】 时间：2025年12月29日 来源：Alzheimers & Dementia 11.1

编辑推荐：

　　本刊推荐：本研究提出阿尔茨海默病语言与图像预训练模型（ADLIP），创新性地融合3D磁共振成像（MRI）与结构化临床文本数据，通过多教师知识蒸馏（MTKD）策略和对比学习框架实现跨模态表征对齐。该模型在零样本诊断、三类分类及纵向预测中均显著优于基线模型（CLIP），且在不同种族队列中展现优异泛化能力，为阿尔茨海默病（AD）的早期精准诊断提供了可解释、可泛化的多模态人工智能解决方案。

1 背景

阿尔茨海默病（AD）作为一种神经退行性疾病，其早期可靠诊断因疾病进展异质性和临床表现多样性而面临挑战。近年来，融合神经影像与临床数据的多模态方法展现出潜力，但跨模态数据有效整合与泛化能力不足仍是瓶颈。传统单模态方法（如仅依赖MRI或文本）难以充分利用多模态数据的互补性，而现有多模态融合模型常将脑脊液（CSF）生物标志物或临床文本视为协变量，未能充分捕捉模态间复杂关联。

对比语言-图像预训练（CLIP）等通用领域模型的成功启示了对比学习在多模态融合中的潜力。医学领域虽已出现BioMedCLIP、病理语言与图像预训练（PLIP）等模型，但其多基于二维图像，未能充分利用三维医学影像（如MRI T1加权图像）的空间信息，而三维数据对捕捉AD相关的脑结构细微变化（如皮质萎缩）至关重要。

2 方法

2.1 数据集

研究使用阿尔茨海默病神经影像倡议（ADNI）数据集，包含841名参与者（认知正常[CN]231人、轻度认知障碍[MCI]411人、AD199人）的3396次纵向MRI扫描。数据涵盖MRI、PET、APOE基因型、CSF生物标志物（Aβ、p-tau、t-tau）及认知评估（MMSE、FAQ）。外部验证采用健康与衰老脑研究—健康差异（HABS-HD）数据集，包含652名以黑人为主的参与者，用于评估模型跨种族泛化能力。

2.2 数据预处理

MRI数据通过FastSurfer流程预处理，包括颅骨剥离和格式转换。临床文本数据将MMSE分数、APOE基因型、CSF生物标志物数值及FAQ项目分数转化为语义化描述（如“需要财务帮助”），并压缩至77个令牌以内以适配模型输入。

2.3 模型架构与训练策略

ADLIP框架包含3D DenseNet图像编码器和Bio_ClinicalBERT文本编码器，通过对比学习将模态投影至共享嵌入空间。首先通过多教师知识蒸馏（MTKD）训练三维图像编码器：分别训练AD vs. MCI和MCI vs. CN的二分类模型作为教师模型，引导学生模型（DenseNet）融合两类知识，提升三类分类（AD/MCI/CN）性能。对比学习采用InfoNCE损失函数，优化图像-文本对相似性对齐。

3 结果

3.1 零样本分类与MMSE预测

ADLIP在零样本诊断任务中准确率达48%（95% CI: 43%–53%），显著优于原始CLIP（1%）和微调CLIP（33%）。在MMSE分数预测中，ADLIP输出边界合理，而CLIP预测值固定为15，微调CLIP出现超界预测。

3.2 纵向预测一致性

对135次纵向扫描的分析显示，AD患者正确预测分数随时间稳定（基线-0.06±0.39，24个月-0.14±0.21），而错误查询（如CN标签）分数持续下降，表明模型预测与临床轨迹一致。MCI组向AD标签的查询分数随病程上升，进一步验证模型对疾病进展的敏感性。

3.3 跨种族泛化能力

在HABS-HD数据集上，ADLIP零样本分类准确率达64%（95% CI: 60%–67%），优于微调CLIP（59%）和原始CLIP（26%），且MMSE预测无超界值，证明其在不同种族群体中的稳健性。

4 讨论

ADLIP通过对比学习构建了MRI与临床文本的结构化知识图谱，克服了传统单模态模型的局限性。多教师知识蒸馏策略有效缓解了AD、MCI、CN间的分类模糊性问题。模型在纵向分析和跨种族验证中表现出的稳定性与泛化能力，凸显其作为AD早期诊断工具的潜力。未来工作可扩展至多模态影像（如扩散MRI、PET）及更多生物标志物（如Aβ₄₂、p-tau₂₁₇），进一步丰富AD知识图谱。

亮点

•
ADLIP是首个整合3D MRI与临床文本的视觉-语言基础模型，支持零样本预测且无需任务特定微调。
•
模型在种族多样性队列中保持性能，促进临床公平应用。
•
纵向评估显示预测分数与疾病进展一致，适用于病程监测。

局限性

研究未纳入扩散MRI或PET等多模态影像数据，纵向样本量有限，且生物标志物整合不够全面。未来需扩大数据集规模与多样性，以提升模型普适性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号