基于大型多模态模型与知识图谱驱动的零样本医学图像分类方法

【字体: 时间:2025年10月16日 来源:Methods 4.3

编辑推荐:

  本文提出跨模态知识表示框架(CMKR),通过整合大型语言模型的隐式知识与知识图谱的显式知识,结合创新的跨模态对齐策略,显著提升零样本医学图像分类性能,为稀缺标注医疗数据场景提供高效解决方案。

  
亮点
• 我们提出用于零样本医学图像分类任务的跨模态知识表示(CMKR)框架。该框架充分利用大型多模态模型提供的隐式知识和知识图谱提供的显式知识,成功增强医学图像诊断能力。
• 我们提出跨模态对齐策略,通过设计适当的损失函数,严格对齐模态间和模态内特征,包括图像-文本对、图像-图像对和文本-文本对。
• 在三个公共数据集(CheXpert、COVID-19、RSNA)上进行的广泛实验表明,我们的方法能显著提升零样本医学图像分类任务的性能。
任务描述
疾病诊断任务旨在根据患者的医疗记录准确识别疾病类型。具体而言,医学图像分类旨在通过计算机算法自动识别和分析医学图像,将其归类到不同类别中。这些类别可能代表不同疾病、病理阶段、器官类型或解剖结构。医学图像分类的目的是协助医生更快、更准确地做出诊断决策。
概述
尽管CLIP模型在许多通用数据集上表现出优异的泛化能力,但其在医学数据集上的性能并不令人满意。原因在于公开医学数据的稀缺性。据我们所知,当前公开的医学图像-文本对数量约为4亿。与通用数据相比,医学数据极为稀少。这种稀缺性导致CLIP模型在预训练阶段无法充分学习医学知识。
数据集和评估指标
本文使用三个公共数据集:CheXpert [60]、COVID-19 [61] 和 RSNA肺炎 [62]。
CheXpert数据集是一个大规模胸部X射线数据集,包含来自65,240名患者的224,316张X射线图像。每张X射线图像关联14种常见医学观察结果或疾病类别,包括无发现(No Finding)、纵隔增宽(Enlarged Cardiomediastinum)、心脏肥大(Cardiomegaly)、肺混浊(Lung Opacity)、肺病变(Lung Lesion)、肺水肿(Edema)、实变(Consolidation)、肺炎(Pneumonia)、肺不张(Atelectasis)、气胸(Pneumothorax)、胸腔积液(Pleural Effusion)等。
结论
本文提出用于医学图像分类任务的多模态表示学习框架。从医学知识图谱和预训练大型语言模型(LLM)中提取显性和隐性知识,能有效解决因样本稀缺导致的过拟合现象。提出的跨模态对齐策略能持续对齐模态内和模态间的知识表示。大量实验表明,我们的方法在零样本医学图像分类任务中取得了显著成果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号