综述:医学影像中的视觉语言基础模型(VLMs):诊断和分析应用的系统综述与荟萃分析

【字体: 时间:2025年05月22日 来源:Computer Methods and Programs in Biomedicine 4.9

编辑推荐:

  本综述聚焦视觉语言基础模型(VLMs)在医学影像领域的应用,系统分析其在分类、分割、报告生成及视觉问答(VQA)等任务的表现,通过荟萃分析整合 106 项研究数据,揭示 VLMs 在辅助临床诊断中的潜力与挑战,为相关研究及临床转化提供参考。

  

背景与目标


人工智能(AI)中融合多模态架构与自监督学习策略的技术近年发展迅速,在处理医学影像数据时可突破特定任务范式,为计算机辅助诊疗的大规模多模态 AI 模型发展奠定基础。具备医学推理能力的大型语言模型(LLMs),如 ChatGPT、PubMedBERT、LLaMA 等,已通过提高诊断效率、加强信息检索与沟通、支持个性化医疗等方式显著推动医疗行业发展。但由于生物医学数据具有包含自然语言叙述的多模态特性,因此需要能够整合多模态医学影像与动态文本输出的 “通用型” 大规模模型。

视觉语言基础模型(VLMs)作为新一代 “通用型” AI 模型,经广泛多样数据集训练,可应用于众多下游任务。其通过整合医学影像视觉信息与文本描述,在提升疾病诊断效率方面展现巨大潜力。多数 VLMs 研究包含预训练阶段,主要目的是降低计算成本并提升下游任务表现,该阶段通常在无监督或自监督学习条件下进行,以使模型获取适用于一般任务的有用特征表示。

方法


本系统综述与荟萃分析已在 PROSPERO 注册(CRD42024575746),检索范围为 PubMed、Embase、Web of Science 和 IEEE 中自建库至 2024 年 12 月 31 日的研究,纳入标准涵盖视觉语言基础模型(VLMs)在医学影像领域的最新发展与应用。针对分类、分割、报告生成和视觉问答(VQA)等任务,汇总 AUC、Dice 系数、BLEU 评分和 Accuracy 等指标,并使用 QUADAS-AI 清单评估报告质量与偏倚。

结果


本系统综述共纳入 106 项符合条件的研究,其中 94 项纳入荟萃分析。下游分类任务的合并 AUC 为 0.86(0.85-0.87);分割任务的合并 Dice 系数为 0.73(0.68-0.78);报告生成任务的合并 BLEU 评分为 0.31(0.20-0.43);视觉问答(VQA)的合并 Accuracy 评分为 0.76(0.71-0.81)。通过按成像方式(放射成像、病理成像和表面成像)和出版年份(2023 年前后)进行亚组分析,探讨 VLMs 研究的异质性,并分析 VLMs 在不同条件下的诊断性能。

讨论


随着 AI 在医学影像中的广泛应用,先进 AI 模型已超越单任务或单模态聚焦的传统范式,实现更通用的临床应用。VLMs 作为通用且可迁移的框架,可作为进一步微调或跨不同医疗任务和领域应用的起点。本研究首次进行专门评估 VLMs 性能的系统综述与荟萃分析,整合现有证据,为推动 VLMs 在真实临床场景中的应用提供依据,同时指出制定更严格报告标准以应对 VLMs 研究独特挑战的必要性,以提升研究质量。

结论


基于医学影像的视觉语言基础模型(VLMs)在计算机辅助临床诊断中表现出强大性能与巨大潜力,更严格针对 VLMs 研究独特挑战的报告标准可提升研究质量。

其他


伦理审批:不适用。
数据可用性:本研究生成或分析的数据集可通过合理请求从相应作者处获得。
利益冲突声明:作者声明他们没有已知的可能影响本文所报告工作的财务利益或个人关系。
致谢:本研究得到中国国家重点研发计划:BTIT(批准号:2022YFF1202803)、辽宁省科技联合计划基金项目(2023JH2/101700175)和辽宁省教育厅一般项目(JYTMS20230132)的支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号