
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于标签语义的提示调优,用于视觉Transformer在医学图像分析中的适应性优化
《IEEE Transactions on Circuits and Systems for Video Technology》:Label-Semantic-Based Prompt Tuning for Vision Transformer Adaptation in Medical Image Analysis
【字体: 大 中 小 】 时间:2025年11月27日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
针对医学图像分析中标注数据稀缺和领域差异问题,提出基于标签语义的提示微调方法LPT,通过跨注意力机制将视觉提示学习转化为文本-图像对齐任务,有效融合标签语义与图像特征,提升ViTs的适应性和诊断准确率。实验表明LPT在8个医学数据集上优于传统微调和现有提示方法,尤其在数据有限场景效果显著。
医学图像分析在计算机辅助诊断(CAD)系统中发挥着重要作用,它自动化地评估X光、CT扫描和MRI等医学图像,帮助临床医生做出准确和及时的诊断[1]。深度学习模型的发展,特别是视觉变换器(ViTs),改变了图像处理的格局。ViTs基于自注意力机制,在捕获全局上下文信息方面表现出色,使其成为处理高分辨率和复杂图像的强大工具[2]。这些能力使得它们在医学图像分析任务中的应用日益增多,例如肿瘤检测、器官分割和病变识别[3]、[4]、[5]。与主要建模局部感受野的传统卷积神经网络(CNNs)[6]不同,ViTs通过建模长距离依赖关系来捕获细粒度的图像特征,使其适用于需要捕捉复杂全局结构的医学图像分析任务。值得注意的是,现代CNNs(例如ConvNeXt [7])也表现出很强的性能,但我们的重点在于改进ViTs对医学领域的适应性,而不是断言它们的普遍优越性。
生物通微信公众号
知名企业招聘