基于视觉与文本一致性概念关系的学习方法，以实现精确且可自我解释的疾病诊断

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：Visual-Textual Consistent Concept Relation Learning for Accurate Self-Explainable Disease Diagnosis

【字体：大中小】 时间：2026年02月19日 来源：Information Fusion 15.5

编辑推荐：

　　医疗图像诊断的可解释性研究通过融合CLIP视觉语言模型与双自动编码器，提出无标注概念关系学习方法。实验表明该方法在黑盒与可解释模型中均达到最优性能。

作者：朱亚婷、王晓燕、黄晓杰、夏明、潘沐、王 Zheng、胡海根、张晓琴、滕中兆

中国杭州，浙江工业大学计算机科学与技术学院，310023

摘要

将视觉语言模型（VLMs）和基于概念的可解释模型相结合，为通过学习人类可理解的概念来解释医学诊断决策提供了一种有前景的方法。然而，现有方法主要关注从概念表示和图像特征中学习，而忽略了概念与疾病类别之间的因果关系。此外，VLMs 通常是在通用领域数据上预训练的，导致在直接应用于医学图像时性能不佳，视觉概念特征的激活也不准确。在本文中，我们提出了一种基于预训练的 CLIP 的无标签、视觉-文本一致的概念关系学习模型，用于实现自我解释的疾病诊断。具体来说，我们使用大型语言模型（LLM）生成医学概念-疾病关系，并进行多级对比学习。为了确保视觉和文本模式之间的一致性，我们引入了一种双向自编码器结构，通过双重重建概念关系和图像来学习潜在的概念表示，从而加强疾病类别标签、文本描述和视觉特征之间的一致性。实验结果表明，我们的模型在黑色素瘤诊断方面的性能比 SOTA 模型 MICA 提高 2.93%；在同一概念注释水平上，概念识别能力比 MONET 提高 8.80%；并且与现有的黑盒模型和可解释模型相比，具有更强的准确性和可解释性。

引言

深度神经网络（DNNs）的最新进展引发了对其安全性和伦理影响的重大关注，特别是在医学图像诊断等高风险领域 [1]。因此，研究 DNNs 的可解释性变得越来越重要。基于概念的可解释性方法（如 CBMs [2]、[3]）在神经网络的最终全连接层之前引入了一个概念瓶颈层，并用带有概念标签的数据对其进行训练。这种设置确保每个神经元对应一个单一的人类可理解的概念。模型的最终决策基于这些概念的线性组合，显著提高了模型的可解释性。然而，医学图像中的概念分布通常密集且复杂，获取细粒度的概念注释既耗时又昂贵，这限制了它们在医学应用中的使用。

无监督的概念学习模型（如 SENNs [4] 及其变体 [5]、[6]）在没有明确监督的情况下学习概念表示。这些模型利用自编码器将图像投影到潜在的概念空间中，从而实现自主的解释生成。然而，在医学诊断等专业领域，无监督模型往往产生不受控制且不可靠的解释，无法与专家知识对齐。最近的“无标签概念”CBM 方法（包括 Label-Free CBM [7] 和 LaBo [8]）试图通过利用大型语言模型（如 GPT [9]）生成与疾病相关的属性作为概念表示来解决这一限制。然后，这些模型使用预训练的视觉语言模型（VLMs，如 CLIP [10]）来生成概念和图像之间的相似性分数。这使得 CBMs 能在图像编码过程中学习特定于概念的特征，从而在不需要明确概念注释的情况下实现可解释的预测。

从理论上讲，CBMs 可以在编码阶段学习激活图像中相关的视觉概念区域。然而，模型激活的一些视觉特征可能与相应的真实医学概念不一致。这种不一致是由于两个关键限制造成的：首先，现有方法主要关注从概念表示和图像中学习，但忽略了概念与疾病类别之间的关系；其次，VLMs 通常是在通用领域的图像-文本对上预训练的，这导致在应用于医学图像时预测性能下降，视觉概念特征的激活不准确。这些问题阻碍了模型获取视觉-文本一致的医学概念特征，最终导致预测不准确和可解释性降低。

为了解决这些挑战，我们提出了一种基于预训练的 CLIP 的无标签、视觉-文本一致的概念关系学习模型（VTCC），用于实现自我解释的医学图像分类。具体来说，我们使用 LLM 生成医学概念与疾病类别之间的关系文本描述，并通过对比学习使其与图像对齐。我们引入了一个具有卷积和通道注意力机制的概念感知模块，以增强细粒度特征提取。然后我们使用双向自编码方法进行概念关系学习。外部自编码器将图像映射到概念特征，并通过从学习到的概念相关特征重建图像来确保视觉和文本表示之间的一致性。内部自编码器将概念特征映射到类别嵌入空间，并在此空间内进行最终预测，为模型提供基于概念的可解释性。此外，我们通过将文本类别名称与图像配对并强制基于概念的预测与基于类别名称的预测之间的一致性，从而提高分类准确性。

图 1 展示了我们的 VTCC 模型对应的概念区域显著性图和解释输出。与人类专家诊断、[6] 中的修订版 SENN（仅输入图像）以及无标签 CBM [7]（输入图像和 GPT 生成的文本概念）相比，可以看出，修订版 SENN 和无标签 CBM 在缺乏概念注释的情况下都会对真实医学概念产生大量的误解或遗漏，而我们的模型生成的视觉-文本一致的概念关系与人类专家识别的概念关系非常接近，从而提供了更精确的分类预测和基于语言的解释。我们的贡献可以总结为：

1) 我们提出了一种新的概念关系学习方法，将自我解释模型与视觉语言模型结合用于医学图像分类，从而在仅类别监督和类别-概念监督下实现准确的基于概念的解释。
2) 我们不仅基于概念定义进行训练，还利用大型语言模型以经济高效的方式收集医学概念-疾病关系的专家知识。
3) 我们在 CLIP 框架内引入了内外双向自编码器，通过双重重建图像和概念关系来学习潜在的概念关系，建立了疾病标签、文本概念和视觉特征之间的一致性。
4) 我们在标准数据集上进行了定量和定性分析。实验结果表明，我们的方法在分类准确性和可解释性方面均优于现有的黑盒模型和可解释模型。

基于概念的可解释性模型

基于概念的可解释性模型试图通过将预测基于人类可理解的概念来提高透明度。CBMs [2]、[3]、[11] 引入了一个中间表示层，其中每个神经元对应一个特定的概念，从而实现可解释的决策制定。然而，传统的 CBMs 需要大量的专家标注的概念注释。无监督的概念学习模型 [5]、[6] 在没有明确监督的情况下学习概念表示。

方法

给定一张医学图像及其对应的疾病标签 y ∈ {0, 1}（M 为类别数量），我们利用概念关系文本提示，目标是共同实现：(i) 指示图像中每个医学概念存在的概念级预测；(ii) 在保持视觉证据和文本概念描述之间语义一致性的同时进行准确的疾病诊断。为此，我们采用视觉语言模型（VLM）作为

数据集

Drem7pt [26] 和 PH2 [27]：两个带有概念注释的数据集，使我们能够验证模型的概念识别准确性并定量评估其可解释性。Drem7pt 数据集提供了 1011 个病变案例，包括 252 个黑色素瘤和 759 个非黑色素瘤，所有样本都配备了全面的 7 点检查表注释和诊断标签，这些数据集广泛用于训练和评估计算机辅助诊断（CAD）系统。

结论

在本文中，我们提出了一种基于 VLM 的视觉-文本一致的概念关系学习模型，用于无需概念注释的疾病诊断。我们使用 LLM 生成医学概念-疾病关系知识，并进行多次对比学习。我们采用双向自编码器结构，通过双重重建概念关系和图像来学习潜在的概念表示，并在文本和视觉概念特征之间建立一致性。

CRediT 作者贡献声明

朱亚婷：撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据管理、概念化。王晓燕：撰写——原始草稿、可视化、资源、方法论、资金获取、形式分析、数据管理、概念化。黄晓杰：验证、监督、资源、方法论、调查、数据管理。夏明：撰写——审稿与编辑、监督、资源、项目管理、资金

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

基于概念的可解释性模型

方法

数据集

结论

CRediT 作者贡献声明

利益冲突声明

热点排行

新闻专题