通过具有病变感知能力的混合变换器和集成归一化注意力图的局部相似性，提高胸部X光诊断的可解释性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Refining explainability in chest X-ray diagnostics with lesion-aware hybrid transformer and local similarity of integrated re-normalized attention map

【字体：大中小】 时间：2026年02月17日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　胸部X光片多标签分类及病灶定位中，基于Transformer和CNN融合的Thoraxformer模型通过特征加权模块和病灶定位标记优化，有效结合局部和全局特征，实验结果显示其分类AUC提升4.5%和3.7%，病灶定位准确率提升15.1%和16.7%，优于基线方法。

Ho Kyung Shin|Deok Heon Lee|Hanna Jung|Woo-Jeoung Nam

韩国庆北国立大学计算机科学与工程学院

摘要

变换器（Transformers）和基础模型（foundation models）在各个领域的应用中取得了显著的成功。然而，由于医学图像分析的固有特性，这些模型的透明度不足，导致其决策过程不如基于卷积神经网络（CNN）的方法清晰。在本文中，我们介绍了Thoraxformer，这是一种具有病变感知能力的混合变换器，它通过特征加权模块（feature weighting module）和病变定位令牌（lesion localization token）整合了CNN的归纳偏见。CNN与Transformer的结合使Thoraxformer能够从胸部X光片中提取内在信息，包括多种疾病的存在以及病变的精确定位。为了将CNN的局部特征与Transformer的全局特征融合，我们提出了特征加权模块，该模块将特征图转换为权重向量。为了生成精确的病变定位图，我们利用了来自病变定位令牌的定位信息以及CNN中的显著性图（saliency maps）。我们对Thoraxformer与以往的研究结果进行了全面比较，并在ChestX-ray14和CheXpert数据集上对其进行了微调。实验结果表明，Thoraxformer在分类和定位方面优于以往的方法。

引言

胸部X光（CXR）是一种最常用的筛查技术，因为它具有成本效益高和灵敏度高的优点[1]、[2]、[3]。它使放射科医生能够同时分析多个可疑区域，从而便于检测病理异常[4]。然而，解读CXR需要放射学专业知识来辨别图像中的复杂病理关系[5]、[6]。此外，每天产生的大量图像使得放射科医生难以保持一致的诊断性能[7]。为了减轻他们的工作负担并提高临床诊断效率，自20世纪60年代以来，人们一直致力于开发自动化的CXR分析算法[8]。

深度学习的最新进展加速了各种医学图像自动化工具的发展[9]，从而产生了许多基于深度学习的方法用于CXR分析[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]。新兴的CXR研究[23]、[24]、[25]将应用范围扩展到了除了常见胸部疾病之外的其他疾病，如结核病和COVID-19的诊断。此外，提高临床适用性的努力主要集中在整合医学报告[23]、引入优化技术[25]以及开发降低计算复杂性的方法[24]上。这些方法主要依赖于卷积神经网络（CNN），CNN通过感受野（receptive fields）和池化操作（pooling operations）有效地提取局部特征[26]。然而，CNN固定的感受野限制了捕捉长距离依赖性和全局特征的能力。相比之下，基于Transformer的模型（如Vision Transformers (ViT) [27]）在捕捉长距离依赖性和全局表示方面表现出色。这些模型促进了基础模型（foundation models）的发展[28]，这些模型利用大规模数据集上的自监督学习（SSL）适应各种下游任务。因此，基于Transformer的模型在医学领域受到了越来越多的关注。

尽管具有优势，但Transformer和基础模型本质上缺乏归纳偏见，这使得它们高度依赖大型数据集。在医学领域，数据收集往往受到限制，这成为一个挑战。此外，这些模型的可解释性有限，可能阻碍其实际应用。因此，只有少数研究[29]、[30]、[31]将它们用于CXR分析，而且很少有研究对其结果进行解释。当需要视觉解释时，通常会使用为CNN设计的方法，如Grad-CAM [32]。然而，这种方法可能会由于排除了类别令牌（class tokens）并将补丁序列转换为CNN的特征图形状而导致解释不准确。

为了解决归纳偏见的不足，我们提出了Thoraxformer（图1），这是一种整合了CNN和Transformer的混合变换器。通过特征加权模块，我们将CNN的局部特征作为权重应用于类别令牌（class token），从而将其整合到Transformer中。在医学领域，收集密集注释是一项劳动密集型且成本高昂的任务，因为需要高水平的专业知识。因此，可解释的方法被广泛用于病变定位。现有的针对Transformer的可解释性方法[33]、[34]利用类别令牌来捕获最具区分性的特征。然而，在注意力机制中重复应用softmax函数会导致对特定点的过度强调，从而妨碍了细粒度定位。为了克服这一限制，我们引入了病变定位令牌，并应用sigmoid函数通过重新归一化来防止对某些区域的过度强调。最后，利用多头自注意力（MHSA）中的定位特征增强和来自CNN的显著性图的伪标签（pseudo labels）来细化定位图。

为了评估Thoraxformer的性能，我们在ChestX-ray14和CheXpert数据集上进行了实验。使用ROC曲线下面积（AUC）作为评估指标，将其多标签分类性能与现有的CXR分类模型和微调的基础模型进行了比较。Thoraxformer表现出色，在ChestX-ray14上的平均AUC为0.861，在CheXpert上为0.86。在病变定位方面，由于代码和预训练权重的有限可用性，我们将其与微调的基础模型进行了比较。定量评估采用了外部-内部相关性比率（outside-inside relevance ratio）[35]的变体和指向游戏（pointing game）[36]，而定性评估则基于边界框进行了视觉分析。实验结果表明，Thoraxformer在两项任务中均优于现有模型，这一点得到了定量和定性评估的证实。总之，我们研究的贡献如下：

我们提出了Thoraxformer，这是一种针对多标签CXR分类设计的具有病变感知能力的混合变换器，无需密集注释即可实现精确的病变定位。
与现有方法不同，我们提出了病变定位令牌，明确地将类别令牌与定位分开。此外，MHSA中的定位特征增强和伪标签有助于学习每个令牌的任务特定特征。
通过将基于CNN的局部特征整合到Transformer中，Thoraxformer在疾病分类方面表现出色，在ChestX-ray14上的准确率为 $+ 4 %$ ，在CheXpert上为 $+ 3 %$ 。
在病变定位方面，我们的方法在ChestX-ray14上的相对增益为 $+ 15 %$ ，在CheXpert上为 $+ 16 %$ ，并且在定性上产生了比现有方法更可靠、更关注病变的定位图。

部分摘录

多标签胸部X光分类

深度学习在许多领域取得了显著进展，研究人员将其应用于医学图像处理。Wang等人[11]引入了一个包含14种胸部疾病的大规模数据集，此类广泛的CXR数据集的可用性加速了辅助放射科医生诊断肺部和心脏相关病理的自动化方法的发展。CheXNet [10]和DNetLoc [12]都基于DenseNet [37]，并针对CXR分析进行了优化

用于比较的基础模型

本节简要介绍了用于比较的基础模型，并强调了它们之间的差异。以下小节将详细描述每个模型。

方法

我们提出了Thoraxformer，这是一种具有病变感知能力的混合变换器，其整体架构和病变图生成过程如图1所示。Thoraxformer将基于CNN的图像编码器（来自CXR-CLIP [70]）与DINO结合。从CNN提取的局部特征通过特征加权模块整合到Transformer中。此外，还使用了病变定位令牌来生成精确的定位图，同时定位特征增强和伪标签有助于

数据集和预处理

在这项研究中，我们使用了两个大规模的CXR数据集ChestX-ray14和CheXpert。预处理过程中，所有图像都被调整大小为224 × 224，并使用ImageNet的平均值和标准差进行了归一化。此外，我们还应用了随机旋转、水平翻转和随机缩放来进行数据增强。

结论

在本文中，我们提出了Thoraxformer，这是一种具有病变感知能力的混合变换器，旨在通过有效整合来自CNN的局部特征来提高CXR分类的可解释性。通过引入特征加权模块和病变定位令牌，Thoraxformer同时利用了局部和全局特征进行分类和病变定位。特征加权模块将CNN生成的特征图转换为权重向量，使Transformer能够

CRediT作者贡献声明

Ho Kyung Shin：撰写——原始草案，方法论。Deok Heon Lee：撰写——原始草案。Hanna Jung：撰写——原始草案。Woo-Jeoung Nam：监督。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：Woo-Jeoung Nam报告称获得了韩国教育部的财政支持。如果还有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作得到了韩国国家研究基金会（NRF）的资助（由韩国政府（MSIT）提供，项目编号为RS-2024-00449891），以及IITP（信息与通信技术规划与评估研究所）-ITRC（信息技术研究中心）的资助（由韩国科学和ICT部提供，项目编号为IITP-2025-RS-2024-00437718），还有通过大邱RISE中心实施的区域创新系统与教育（RISE）Glocal 30计划（由韩国政府提供）的资助。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号