关于特定领域视觉-语言模型在乳腺X线筛查中的迁移学习行为

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Biomedical Informatics》：On the transfer learning behavior of domain-specific vision–language models in screening mammography

【字体：大中小】 时间：2026年01月24日 来源：Journal of Biomedical Informatics 4.5

编辑推荐：

　　视觉语言模型在乳腺X光片密度估计和BI-RADS预测中的应用，通过迁移学习策略验证其优于传统CNN/ViT模型及MammoClip VLM，在少量数据下表现更优，并证实模型在两个外部数据集上的泛化能力。

AI创新中心，梅奥诊所，亚利桑那州菲尼克斯，美国

摘要

视觉-语言模型在处理自然图像和文本方面表现出色。由于解剖结构的相似性、高灰度图像维度以及数据集的不平衡性，传统的视觉-语言模型（VLM）并不适合放射学应用。在这项工作中，我们通过实证方法将特定领域内训练的图像编码器进行调整，以应用于两个下游任务：2D乳腺X光图像分析（包括组织密度估计和BI-RADS分类）。我们使用线性探测、微调和在线自蒸馏等方法研究了模型的迁移学习行为。分析结果表明，即使只有5%的训练数据，基于知识驱动的特定领域VLM骨干模型也比MammoClip VLM模型以及监督学习基线模型（如ViT和CNN）表现得更好。此外，我们还进一步研究了这些模型在两个外部数据集上的泛化能力。

引言

视觉-语言模型（VLM）整合了视觉和文本数据，能够理想地完成需要理解这两种模态的任务，例如图像字幕生成、视觉问答和图像到文本的检索[1]。由于医学应用中缺乏标注的训练数据，VLM的图像-文本预训练已成为一种流行的方法，用于开发基础骨干模型，这些模型随后通过上下文学习框架进行微调或直接应用到具体的下游任务中[2]。这种具备多模态知识的强大骨干模型已被证明对各种临床相关任务（如分类、分割和推理[3]、[4]、[5]）非常有用。

根据美国癌症协会（ACS）的乳腺筛查指南，所有45岁及以上的女性都被建议每年进行一次乳腺X光检查，这导致了医疗机构中大量的筛查图像。然而，《乳腺X光质量标准法案》（MQSA）要求患者在30天内收到检查结果，给放射科医生带来了巨大的工作量和时间压力[6]。人工智能可以通过基于癌症风险自动分类病例来发挥关键作用；尽管标准化的BI-RADS报告已被广泛采用，并且市场上也有几种FDA批准的AI产品辅助阅片（例如iCAD的PowerLook、Hologic的Genius、Kheiron Medical Technologies的Mia、Google Health的Mammography AI），但由于乳腺形状、密度和发现结果的多样性，这些产品在泛化能力上仍存在不足[8]。

临床上，乳腺密度通常与BI-RADS分类结果分开报告，但较高的乳腺密度可能会掩盖病变，降低诊断的准确性，这在某些情况下可能会影响放射科医生的决策。通过对公开数据集RSNA Mammo进行卡方独立性检验，我们证实了这两个指标之间存在潜在的间接关系（卡方值为98.17，自由度为6，p值小于0.0001）。从临床角度来看，乳腺密度和BI-RADS分类都是标准化乳腺X光报告的重要组成部分。因此，准确预测这两个指标有助于提高诊断质量并简化临床工作流程。

迁移学习是机器学习领域中一个活跃研究的主题[9]、[10]、[11]。已经引入了几种有效的方法，如微调、线性探测、各种类型的蒸馏（例如数据蒸馏[12]、知识蒸馏[13]和自蒸馏[14]。视觉-语言模型（VLM）领域也不例外，因为训练大型模型需要大量的数据、计算资源和时间[15]、[16]。在医学领域，特定领域的VLM也得到了积极探索[17]、[18]。然而，由于隐私问题，这一领域面临独特的挑战，因为难以获取医疗数据。在这项工作中，我们探索了从预训练的领域内视觉-语言模型中迁移知识，以解决乳腺X光检查中两个与视觉相关的下游任务，其中文本知识的理解起着关键作用。

我们的假设是，通过预训练文本-图像对（例如成簇的钙化灶、腋窝淋巴结病变）来理解罕见病例的VLM，将能够弥补传统仅基于图像的编码器（如CNN、ViT）的不足，并在未见过的样本上表现更好。我们开发了一个框架ALBEF-SS，专门用于乳腺X光筛查，该框架采用了基于文本放射学报告的选择性采样和硬负样本挖掘技术[20]。在这项研究中，我们使用三种不同的策略（线性探测、微调和在线自蒸馏）评估了ALBEF-SS图像编码器的迁移学习行为。作为比较基准，我们将其与从零开始训练的CNN和ViT骨干模型，以及使用对比学习策略训练的现有特定领域MammoClip VLM模型（4）进行了对比（后者未对罕见乳腺X光发现进行平衡处理）。

为了理解基于知识的VLM骨干模型的强大功能及其在下游任务中的实用性，我们特别选择了两个具有挑战性的应用场景：（i）乳腺密度分类：乳腺密度分类有助于放射科医生做出关于进一步诊断测试或随访程序的明智决策，但由于个体差异和不同乳腺X光设备的图像特性差异，组织外观可能有所不同，这使得开发通用模型变得具有挑战性（图1(a)）。此外，密度分类在某种程度上具有主观性，不同放射科医生的解释也可能存在差异[21]；（ii）BI-RADS分类推断：BI-RADS分类由美国放射学会（ACR）制定，帮助放射科医生一致地传达发现结果和建议。对于乳腺X光筛查，BI-RADS 0表示检查有一些发现，需要额外的诊断成像或与先前研究进行比较以确定诊断结果；而BI-RADS 1和2表示检查没有发现或发现结果均为良性，例如良性囊肿、纤维腺瘤或其他非癌性病变（图1(b)）。

我们选择这些应用场景是因为它们在临床实践中既相互依赖又相互独立。较高的乳腺密度可能会降低病变的可见性，并与较高的召回率（BI-RADS 0）相关。因此，密度提供了在不确定性情况下影响评估决策的先验信息。我们明确指出，这些任务是相关的，但并不完全相同。我们在内部保留集以及两个外部数据集（RSNA-Mammo公开数据集[22]和梅奥诊所私有数据集）上评估了领域内VLM图像编码器的迁移学习策略。

方法论

我们的分析基于一个特定领域的视觉-语言模型ALBEF-SS，该模型是在乳腺X光检查图像和报告对上预训练的[20]。关于ALBEF-SS模型的背景信息详见第2.1节

内部数据集

经机构IRB批准，我们使用了来自威斯康星大学麦迪逊分校（UW）的72,328张双侧乳腺X光图像，涉及46,848名患者。在所有实验中，这些图像被随机分为80%-10%-10%的训练集、验证集和测试集，分别得到70,328张训练图像、1,000张验证图像和1,000张测试图像。对于密度预测任务，我们移除了不符合以下四类之一的噪声样本（例如没有密度和BI-RADS分类结果的图像）：脂肪型...

讨论

从实际角度来看，观察到的性能和泛化行为表明，特定领域的视觉-语言模型编码器目前最适合用于决策支持和工作流程增强场景，而不是自主临床决策[32]。在这项研究中，我们探索了将预训练的特定领域VLM适应于乳腺X光筛查中具有临床意义的下游任务的迁移学习能力。准确的乳腺密度估计和BI-RADS分类...

CRediT作者贡献声明

Aisha Urooj Khan：撰写——审稿与编辑、初稿撰写、可视化、验证、方法论、数据分析、概念化。Gokul Ramasamy：撰写——审稿与编辑、验证、研究。Muhammad Danish Khan：方法论、研究。John Garrett：撰写——审稿与编辑、监督、资源管理。Tyler Bradshaw：撰写——审稿与编辑、监督、研究。Lonie Salkowski：撰写——审稿与编辑、监督、项目协调。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作

致谢

本文所述的研究得到了美国国立卫生研究院（NIH）下属的NCI（项目编号1R37CA262110-01A1，负责人：Salkowski）和NIH/NCI（项目编号U01 CA269264-01-1，负责人：Banerjee）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号