基于标签语义的提示调优,用于视觉Transformer在医学图像分析中的适应性优化

《IEEE Transactions on Circuits and Systems for Video Technology》:Label-Semantic-Based Prompt Tuning for Vision Transformer Adaptation in Medical Image Analysis

【字体: 时间:2025年11月27日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  针对医学图像分析中标注数据稀缺和领域差异问题,提出基于标签语义的提示微调方法LPT,通过跨注意力机制将视觉提示学习转化为文本-图像对齐任务,有效融合标签语义与图像特征,提升ViTs的适应性和诊断准确率。实验表明LPT在8个医学数据集上优于传统微调和现有提示方法,尤其在数据有限场景效果显著。

  

摘要:

将视觉变换器(ViTs)适配到医学图像分析中具有挑战性,这主要是由于标注数据的稀缺以及从自然图像到医学图像的领域差异较大。传统的微调方法虽然有效,但需要为每个任务存储单独的模型参数,从而导致较高的计算成本。现有的提示调优方法通过引入特定于任务的提示令牌来减少这一开销,但它们往往无法充分利用标签的语义信息,从而导致医学任务的性能不佳。为了解决这些限制,我们提出了一种基于标签语义的提示调优方法(LPT),该方法将视觉提示学习问题转化为文本-图像对齐任务。与传统仅关注视觉提示的方法不同,LPT通过基于交叉注意力的模块融入了标签语义,以更好地使图像特征与目标标签对齐。这种方法不仅从标签中捕获了丰富的语义信息,还增强了模型提取与特定医学状况相关的细粒度图像细节的能力。通过在训练过程中利用标签-文本对齐,LPT提高了标签的利用率和模型的适应性,从而实现了更准确的预测。在八个不同的医学数据集上的广泛实验表明,LPT显著提高了诊断准确性和泛化能力,其性能优于传统的微调方法和当前的基于提示的方法,尤其是在数据有限的场景中。

引言

医学图像分析在计算机辅助诊断(CAD)系统中发挥着重要作用,它自动化地评估X光、CT扫描和MRI等医学图像,帮助临床医生做出准确和及时的诊断[1]。深度学习模型的发展,特别是视觉变换器(ViTs),改变了图像处理的格局。ViTs基于自注意力机制,在捕获全局上下文信息方面表现出色,使其成为处理高分辨率和复杂图像的强大工具[2]。这些能力使得它们在医学图像分析任务中的应用日益增多,例如肿瘤检测、器官分割和病变识别[3]、[4]、[5]。与主要建模局部感受野的传统卷积神经网络(CNNs)[6]不同,ViTs通过建模长距离依赖关系来捕获细粒度的图像特征,使其适用于需要捕捉复杂全局结构的医学图像分析任务。值得注意的是,现代CNNs(例如ConvNeXt [7])也表现出很强的性能,但我们的重点在于改进ViTs对医学领域的适应性,而不是断言它们的普遍优越性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号