基于图像-文本-音频多模态融合与协同注意力的阿尔茨海默病识别新方法

【字体: 时间:2025年08月09日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对阿尔茨海默病(AD)早期诊断中视觉信息利用不足的问题,提出了一种整合图像、文本和音频的多模态预测模型。通过构建图像-文本二分图(bipartite graph)和基于协同注意力(co-attention)的中间融合策略,实现了90.61%的分类准确率,超越现有技术。研究量化了各模态贡献度(Shapley值),并开发了自适应辅助损失函数,为AD的多模态诊断提供了新范式。

  

阿尔茨海默病(AD)作为进行性神经退行性疾病,早期诊断对延缓病程至关重要。目前主流诊断方法依赖患者对图片的口头描述(如Cookie Theft任务),但既往研究多聚焦于语音或文本单模态分析,忽视了视觉场景理解这一关键维度。患者常表现出视觉注意力缺陷和物体识别障碍,而这些特征在传统评估中未被充分挖掘。

针对这一局限,韩国电子通信研究院(Electronics and Telecommunications Research Institute)的Byounghwa Lee团队在《Scientific Reports》发表研究,首次将图像、文本和音频三模态整合,构建了创新的AD识别框架。研究人员利用视觉语言模型(VLM)提取图像-文本关联特征,通过图卷积网络(GCN)学习结构化表示,并结合BERT文本嵌入与wav2vec2.0音频特征。创新性地引入协同注意力机制实现跨模态对齐,最终准确率达90.61%,较现有技术提升显著。

关键技术包括:1)基于BLIP/BLIP-2/CLIP的视觉语言模型构建图像-文本二分图;2)采用5折交叉验证的ADReSSo数据集(含年龄/性别匹配的音频记录);3)Shapley值量化模态贡献度并设计自适应损失函数;4)Transformer融合策略优化跨模态交互。

多模态特征提取与融合

通过Whisper转录音频、BERT编码文本,同时将Cookie Theft图片分割为10个子图,利用VLM生成嵌入并构建带权二分图。GCN学习得到的图表示与文本/音频特征通过协同注意力模块交互,其中音频特征经200ms分块降采样处理以解决序列长度不匹配问题。

跨模态协同注意力机制

设计双向注意力模块使各模态相互关注:音频-文本注意力捕获语义与韵律关联,图像-文本注意力识别场景描述偏差。自适应加权整合原始特征与注意力输出,保留模态特异性信息的同时增强互补性。

模态贡献度量化

Shapley值分析显示文本模态贡献最高(38.7%),其次为图像-文本图表示(35.6%),音频模态最低(26.4%)。对应开发的辅助损失函数通过线性层监督各模态输出,进一步提升模型鲁棒性。

关键发现与临床意义

1)注意力可视化显示AD患者音频关注点与能量分布无关(相关系数0.0595),而是聚焦语调异常;文本注意力则突出错误描述(如将"擦拭"误为"烹饪")。

2)高频词汇分析发现健康组侧重准确描述(如"mouth"、"wiping"),而AD组多出现无关词汇(如"picture")和场景误解。

3)图像-文本图能有效捕捉语义错配,如患者描述中虚构物体的边缘权重显著降低。

该研究突破了传统AD诊断的模态局限,首次证实视觉场景理解与语言分析的协同价值。提出的Shapley加权策略为多模态模型优化提供新思路,而注意力模式分析为临床评估提供了可解释的生物标志物。未来可扩展至轻度认知障碍(MCI)筛查,并结合大语言模型(LLM)提升细粒度分类能力。研究结果对开发低成本、非侵入式的AD早期筛查工具具有重要实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号