
-
生物通官微
陪你抓住生命科技
跳动的脉搏
双重视觉提示调优(DVPT):基于局部-全局协同引导的大型视觉模型医学图像分割方法
【字体: 大 中 小 】 时间:2025年07月21日 来源:Computerized Medical Imaging and Graphics 5.4
编辑推荐:
针对Segment Anything Model(SAM)在医学图像分割中存在领域差异大、噪声干扰强、边界模糊等挑战,研究人员提出双重视觉提示调优(DVPT)方案,通过局部特征提示调优(LFPT)模块和全局引导提示(GGP)编码器的协同作用,在ISIC2017等数据集上实现75.24% IoU的突破,为计算机辅助诊断提供新范式。
在医学影像分析领域,Segment Anything Model(SAM)作为自然图像分割的标杆模型,其直接应用于医学场景却面临"水土不服"的困境。医学图像特有的低对比度、复杂噪声和模糊边界特征,使得SAM在腹部CT多器官分割等任务中频频失效。更棘手的是,医学数据标注成本高昂,传统全参数微调方式在数据稀缺场景下难以奏效。这些瓶颈严重制约了大型视觉模型在医疗AI领域的潜力释放。
针对这一挑战,研究人员创新性地提出双重视觉提示调优(DVPT)框架。该方案摒弃了传统手动提示的交互模式,通过双路协同机制实现自动化精准分割:一方面,局部特征提示调优(LFPT)模块采用可学习的卷积结构,从医学图像中提取解剖结构的细粒度纹理特征;另一方面,全局引导提示(GGP)编码器通过聚合多通道注意力特征,建立跨尺度语义关联。这种"局部刻画细节+全局把握整体"的设计理念,在保持SAM原有知识体系的同时,成功实现了医学域特征的精准适配。
研究采用多模态验证策略,在ISIC2017皮肤病变分割、Shenzhen Hospital胸部X光分割以及Synapse多器官CT分割三个典型任务中系统评估DVPT性能。关键技术路线包含:1) 构建轻量化LFPT模块嵌入ViT编码器;2) 设计GGP编码器生成动态提示令牌;3) 在SAM掩码解码器中实现多级特征融合。特别值得注意的是,实验采用30例增强CT扫描数据(含3779张512×512切片)进行八器官分割验证。
研究结果显示,DVPT在多项指标上实现显著突破:在ISIC2017数据集达到75.24%的交并比(IoU),Shenzhen Hospital数据集更是取得97.75%的Dice相似系数(DSC)。可视化分析表明,GGP生成的注意力热图能精准锁定器官边界区域,如图1(d)所示的高亮激活区与临床金标准高度吻合。相比现有SAM适配方案,DVPT在胰腺等小器官分割任务中DSC提升达8.3%,证实其对复杂解剖结构的捕捉优势。
这项发表于《Computerized Medical Imaging and Graphics》的研究具有双重革新意义:方法论层面,开创性地将提示学习范式引入医学图像分割领域,通过LFPT与GGP的协同设计,实现"不破坏原有知识体系"的精准适配;临床应用层面,为数据稀缺场景下的医疗AI部署提供新思路,其自动提示机制显著降低人工干预需求。正如讨论部分指出,DVPT的成功证实了大型基础模型通过针对性微调策略向医疗领域迁移的可行性,为后续医学影像分析研究提供了重要范式参考。
生物通微信公众号
知名企业招聘