MammoVQA:建立乳腺X线摄影视觉问答新基准,推动AI辅助乳腺癌筛查诊断发展

《Nature Communications》:A Benchmark for Breast Cancer Screening and Diagnosis in Mammogram Visual Question Answering

【字体: 时间:2025年11月28日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对当前大型视觉语言模型(LVLM)在乳腺X线摄影解读领域缺乏标准化评估基准的问题,开发了首个专门用于乳腺X线摄影视觉问答的大规模数据集MammoVQA。该研究整合了15个公共数据集,包含131,847张图像(42万QA对)和72,518次检查(47.6万图像,14.4万QA对),系统评估了12个最新LVLM的性能。研究发现现有模型诊断性能接近随机猜测水平,而领域优化的LLaVA-Mammo模型在内部验证中加权准确率平均提升19.66%,外部验证提升21.21%,为AI辅助乳腺癌早期检测奠定了重要基础。

  
在全球范围内,乳腺癌一直是女性中最常见的恶性肿瘤,每年有数百万新病例被确诊。早期检测对于改善患者预后至关重要,而乳腺X线摄影作为检测和诊断乳腺癌的基石工具,通过提供关键的视觉证据来发现癌症的早期迹象,如肿块或钙化。然而,解读乳腺X线影像 inherently 复杂,高度依赖合格放射科医生的专业知识。即使在专家中,诊断也可能涉及主观判断和不一致性。因此,开发高质量、专门支持模型训练和评估的乳腺X线影像数据集已成为推进该领域智能应用的关键需求。
近年来,大型视觉语言模型(Large Vision-Language Models, LVLM)的快速发展展示了在多模态学习中的巨大潜力。尽管这些模型在通用视觉问答任务中表现出色,但它们在乳腺X线摄影这一专业医疗领域的应用仍存在明显空白。当前缺乏专门针对乳腺X线摄影视觉问答的标准化评估基准,使得公平比较不同LVLM在乳腺X线影像解读中的性能变得困难。这一关键空白促使研究人员开展了一项开创性研究,旨在建立专门的评估基准并深入探索LVLM在乳腺X线摄影解读中的真实能力。
为了解决这一关键空白,由Jiayi Zhu、Fuxiang Huang、Qiong Luo和Hao Chen组成的研究团队在《Nature Communications》上发表了题为"A Benchmark for Breast Cancer Screening and Diagnosis in Mammogram Visual Question Answering"的研究论文。这项工作通过三个关键贡献填补了研究空白:首先,引入了MammoVQA——一个统一15个公共数据集的乳腺X线摄影视觉问答数据集,包含131,847张图像(421K问答对)用于图像级病例和72,518次检查(476K图像,144K问答对)用于检查级病例。其次,对12个近期高性能LVLM(6个通用模型,6个医疗模型)的系统评估显示,其诊断性能在统计上与随机猜测相当,突显了它们在乳腺X线影像解读中的不可靠性。第三,领域优化的LLaVA-Mammo在内部验证中比最佳近期高性能模型的加权准确率平均提升19.66%,在外部验证中平均提升21.21%。
本研究采用的关键技术方法包括:基于15个公共乳腺X线摄影数据集的MammoVQA基准构建技术,使用GPT-4o生成问题-答案对的自动化方法,低秩自适应(Low-Rank Adaptation, LoRa)微调技术,以及针对12个LVLM的零样本评估框架。数据集包含来自真实医疗环境的图像,确保了与临床实践的高度相关性。外部验证使用4个独立数据集(DBT、LAMIS、MM、NLBS)进行评估,确保了模型的泛化能力。
MammoVQA数据集构建
研究人员从公共乳腺X线摄影数据集中构建了MammoVQA,认识到乳腺X线摄影中图像-文本数据的稀缺性,他们聚合了大量该领域的分类数据集并将其转换为视觉问答格式。MammoVQA包含来自各个权威医疗机构发布的15个乳腺X线摄影数据集,形成了一组多样化的图像,使模型能够学习更广义的表征并在各种异构数据上验证其性能。所有图像均来自真实医疗环境,确保MammoVQA与实际应用紧密结合。通过人工验证,研究团队重新检查了所有乳腺X线影像以确保没有图像损坏、不可读文件或视觉异常。数据集涵盖9个问题主题,包括但不限于BI-RADS(乳腺影像报告和数据系统)分类、密度评估和异常检测,充分反映了乳腺X线摄影的多样性和复杂性。
现有LVLM的系统性评估
为了评估现有LVLM解读乳腺X线影像的能力,研究人员选择了12个在大规模数据集上预训练的模型。这些模型具有相似的规模和不同的特点,因其性能而获得广泛认可。他们在MammoVQA基准上进行了零样本实验,以评估它们解读乳腺X线影像的能力。通过加权准确度的详细分析,观察到一个显著现象:大多数LVLM在各种问题主题上的表现接近随机猜测水平。即使性能较好的模型(如InternVL3和MedGemma)在大多数任务中仍表现出不足的准确度,表明它们缺乏对乳腺病变模式的领域特异性解读能力。这一局限性突出了提高模型在乳腺X线影像解读中性能的重要性,这对于实现可靠的AI辅助乳腺癌早期检测至关重要。
MammoVQA如何提升LVLM的乳腺X线影像解读能力
为了进一步提升模型在MammoVQA上的性能,研究人员在MammoVQA训练集上对LLaVA-NeXT模型进行了微调,得到了LLaVA-Mammo。通过在MammoVQA数据集上的微调,模型能够更好地学习乳腺X线影像特征与类别词之间的关联,同时适应MammoVQA任务中独特的语义和问题类型。LLaVA-Mammo在MammoVQA内部基准集上表现出对现有LVLM的绝对优势。特别是在背景组织任务中,LLaVA-Mammo的加权准确率达到54.46%,比其他LVLM中性能最佳的InternVL3高出13.01%。在视角任务中,加权准确率达到98.45%,比其他LVLM中性能最佳的MedDr高出44.43%。总体而言,在图像病例中,LLaVA-Mammo的平均绝对准确率和加权准确率分别达到73.89%和50.32%,比LVLM中性能最佳的MedGemma分别高出38.07%和19.66%,显示出显著改进。
外部验证
为了评估LLaVA-Mammo的泛化能力和可靠性,研究人员使用四个独立数据集(DBT、LAMIS、MM和NLBS)进行了外部验证。外部基准集涵盖六个问题主题:BI-RADS(乳腺)、乳腺密度、视角、偏侧性、病理学(乳腺)和病理学(发现)。跨4个外部数据集的验证表明,LLaVA-Mammo在数据集级别的绝对准确率比最佳性能模型高出19.87%,在问题主题级别的绝对准确率和加权准确率分别高出26.39%和21.21%。这些发现证明LLaVA-Mammo保持了强大的泛化能力,在所有任务中 consistently 优于现有模型,并显示出与领域专用模型相比的优越性能,从而表明了强大的跨数据集适应能力和对多样化乳腺X线影像解读任务的可靠性。
研究结论与讨论
本研究最重要的贡献在于建立了MammoVQA这一大规模乳腺X线摄影视觉问答数据集,解决了医疗多模态人工智能中的关键挑战。首先,它建立了专门的评估框架,用于评估LVLM在乳腺X线影像解读中的诊断能力;其次,通过结构化的问答对提供精心策划的训练数据,使通用LVLM能够适应乳腺成像这一专业领域;第三,通过包含单视角病例和多视角病例来模拟临床阅读范式,反映了放射科医生对复合信息的依赖以实现准确诊断;第四,为开发人机协作系统创建了基础架构,模型可以在初步筛查中提供辅助,同时保持医生对最终决策的监督。
性能分析显示,专门采用封闭集输出的专用模型在分类任务中优于具有开放端输出的大型语言模型。通过比较基于ViLT的模型与LLaVA-Mammo,发现在相同的图像-文本输入设置下,除了最简单的视角和偏侧性任务性能相当外,LLaVA-Mammo在其他任务中的加权准确率均优于约6%-20%。可靠性分析表明,训练数据分布的平衡性对训练模型的性能有显著影响。训练数据分布越平衡,三个训练模型的两个柱状图之间的差距越小,表明平衡的训练数据提高了模型预测的可靠性。
然而,该研究也存在四个主要局限性。计算限制使实验仅限于Vicuna-7B,无法用更大的LVLM验证缩放定律假设;性能偏差源于问题主题中训练数据的不平衡;MammoVQA基于分类的设计将答案限制在封闭类别中,限制了LVLM的开放端推理潜力;没有系统研究确定最佳模型架构或训练策略以最大化MammoVQA的有效性。
这些局限性提出了四个研究重点:扩展到更大的架构;开发强大的数据平衡方法;构建开放端乳腺X线摄影视觉问答数据集以适当评估LVLM的乳腺X线摄影解读能力;利用MammoVQA数据集通过知识蒸馏技术开发轻量级LVLM,为实时临床乳腺X线摄影问答应用进行优化。
需要重点强调的是,MammoVQA本质上是一个技术基准,旨在评估AI模型性能,而不是一项与经验丰富的放射科医生比较诊断准确性的研究。因此,任何报告的"优越准确率"应严格解释为在此特定基准任务上的优越技术性能,绝不能误解为优越临床诊断效用的证据。在MammoVQA基准上的优越表现是必要的初步步骤,但这代表了技术熟练度而非已证实的临床效用。任何模型诊断价值的明确证据最终必须通过前瞻性、以患者为中心的临床研究来建立。
这项研究为乳腺X线摄影视觉问答建立了关键的基础设施,推动了AI辅助乳腺X线影像解读研究的进展,为未来开发更可靠、更准确的乳腺癌早期检测系统奠定了重要基础。通过提供标准化的评估框架和高质量的训练数据,MammoVQA有望加速医疗多模态人工智能在乳腺癌筛查和诊断领域的发展,最终为改善全球女性健康结果做出贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号