视觉语言模型在医学影像中的抗伪影鲁棒性评估:挑战与启示

《npj Digital Medicine》:Understanding the robustness of vision-language models to medical image artefacts

【字体: 时间:2025年11月28日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对视觉语言模型(VLMs)在医学影像分析中易受图像伪影干扰的问题,系统评估了其在脑部MRI、胸部X射线和视网膜OCT等多种影像模态下的鲁棒性。研究人员通过构建包含五类常见伪影(如运动伪影、噪声、偏置场等)的基准数据集,发现现有VLM在原始图像上仅表现中等准确率(0.645–0.778),弱伪影导致性能显著下降(最高–10.46%),且对强伪影的识别率极低(0.115–0.194)。结果表明,当前VLM尚未具备处理临床常见伪影的能力,亟需在模型开发中引入抗伪影设计与标准化测试框架,以推动可信医疗AI的应用。

  
在人工智能席卷医疗领域的今天,视觉语言模型(Vision-Language Models, VLMs)凭借其强大的图像理解和自然语言交互能力,被视为辅助医生进行疾病诊断的潜力新星。这些模型能够像人类一样“看懂”医学影像并回答临床问题,例如通过视网膜OCT(光学相干断层扫描)图像判断患者是否患有黄斑病变。然而,真实的医疗场景远非理想——患者移动、设备限制、技师操作差异等因素常会导致影像中出现各种伪影(Artefacts),这些干扰如同照片上的模糊或噪点,可能让AI“看走眼”。现有研究多聚焦于VLMs在高质量图像上的表现,但其面对临床中司空见惯的伪影时是否依然可靠,仍是一个未知的黑箱。
为揭开这一谜题,发表在《npj Digital Medicine》上的一项研究首次系统性地评估了VLMs对医学影像伪影的鲁棒性。研究团队构建了一个涵盖脑部MRI(磁共振成像)、胸部X射线和视网膜OCT三大模态的基准数据集,通过模拟五类常见伪影(强度伪影:随机偏置场、运动、噪声;空间伪影:随机裁剪、旋转),并设置弱(部分遮挡但仍可解读)与强(严重失真不可分级)两个等级,全面测试了包括GPT-4o、Claude 3.5 Sonnet、BiomedCLIP等主流VLMs的性能。结果发现,即便在原始未修改图像上,VLMs的疾病检测准确率也仅为中等水平(MRI最高0.770,OCT最高0.778),而弱伪影的引入便会导致性能显著下滑(最高降幅10.46%),尤其以随机噪声的影响最为致命。更令人担忧的是,VLMs对强伪影的识别能力普遍低下(最高仅0.825),难以在图像质量不佳时发出有效警告。这些发现敲响了警钟:当前VLMs尚无法胜任存在伪影的真实临床影像分析,其可靠性亟待提升。
研究的关键技术方法主要包括:利用公开医学影像数据集(如脑瘤MRI、视网膜OCT、COVID-19检测X射线数据集)构建基准;通过TorchIO库模拟生成不同强度与类型的伪影;采用三种提示策略(结构化输出、标准输出、思维链)激发VLMs性能;并从分类准确率、性能百分比变化及强伪影检测率三个维度量化模型鲁棒性。
模型在原始未修改图像上的表现
评估显示,所有VLMs在原始图像上的疾病检测准确率均属中等,其中基于医学数据预训练的BiomedCLIP在脑瘤和COVID-19/肺炎检测中表现最佳(准确率分别达0.770和0.760),而GPT-4o在黄斑病变检测中领先(0.778)。然而,部分模型如MedGemma因倾向将多数病例判为正常,导致敏感度极低。
模型对弱图像伪影的鲁棒性
引入弱伪影后,所有模型性能均出现下降,其中随机噪声导致的退化最为显著(如BiomedCLIP在X射线应用中的准确率下降38.5%)。有趣的是,某些伪影(如对MRI图像的随机裁剪)反而提升了部分模型的检测能力,可能因裁剪帮助模型更聚焦于病灶区域。
强伪影检测率
在强伪影识别任务中,Claude 3.5 Sonnet(2024.6.20版本)在MRI和X射线应用中表现最佳(例如对MRI强运动伪影的检测率达0.825),而强度伪影(如噪声)比空间伪影更易被VLMs识别。多数模型对旋转等空间伪影几乎无检测能力。
提示工程的作用
研究发现,采用标准输出或思维链(Chain of Thought, CoT)提示策略能提升模型对劣质图像的识别率,但对疾病检测性能改善有限。例如,GPT-4o在X射线应用中因伦理保护机制,使用CoT提示时拒绝回答比例升高,反而导致性能下降。
VLM对真实世界伪影的鲁棒性
在包含真实糖尿病视网膜病变眼底照片的测试中,VLMs同样表现出对伪影的敏感性,如MedGemma在弱伪影图像上准确率下降41%,进一步验证了其在复杂临床环境中的局限性。
研究结论强调,当前VLMs对医学影像伪影的鲁棒性严重不足,其性能受伪影类型、影像模态及提示策略多重影响。这一发现揭示了医疗AI部署中的潜在风险,呼吁在模型开发中必须整合抗伪影设计、标准化鲁棒性测试框架,并引入图像质量评估模块。未来工作需探索更细粒度的伪影量化方法、多类别疾病检测任务及组合伪影的影响,以推动构建真正适用于临床的可靠医疗VLMs。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号