MS-SAM：一种基于多尺度图像编码器与多视图提示编码器融合的多阶段SAM（Segmentation Algorithm，分割算法），用于糖尿病视网膜病变的分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：MS-SAM: Multi-stage SAM based on the fusion of multi-scale image encoder and multi-view prompt encoder for diabetic retinopathy segmentation

【字体：大中小】 时间：2025年11月12日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　糖尿病视网膜病变（DR）病灶自动分割方法，提出多阶段SAM框架，通过LoRA微调冻结的SAM图像编码器，结合多尺度上采样模块（MSUM）和生成式多视角提示编码器，设计多阶段掩模解码器优化边界。实验表明在IDRiD和DDR数据集上mAUPR提升2.42%-5%，mDice提升1.91%-0.83%，mIOU提升2.17%-3.22%。

　　糖尿病视网膜病变（Diabetic Retinopathy, DR）是一种由长期高血糖引起的常见且严重的并发症，是导致失明的主要原因之一。在临床实践中，DR的早期筛查和准确诊断对于延缓疾病进展、保护视力至关重要。然而，传统的手动筛查方法依赖于医生的经验，不仅效率低下，还容易出现误诊或漏诊的情况。因此，开发一种能够自动且精确分割DR病变区域的方法具有重要的现实意义。近年来，随着深度学习技术的不断发展，许多研究者提出了基于不同模型的DR病变分割方法，包括卷积神经网络（CNN）和Transformer架构。这些方法在一定程度上提高了分割的准确性，但在面对病变结构复杂、边界模糊、尺度差异大等挑战时仍存在局限性。

Segment Anything Model（SAM）作为一种具有强大图像表示能力和灵活提示机制的模型，已经在通用图像分割任务中展现出卓越的性能。SAM通过ViT（Vision Transformer）架构提取图像嵌入，并利用提示编码器生成提示嵌入，再通过轻量级的掩码解码器进行融合，以预测分割掩码。此外，SAM在超过1亿张自然图像上进行训练，这使得其具备了强大的视觉表示能力和零样本分割能力。然而，SAM在医学图像分割任务中的表现尚未达到预期，其原因可能是训练数据中缺乏医学图像样本，导致模型在学习特定医学结构和语义信息方面存在困难。因此，如何充分发挥大参数模型的潜力，并有效引导下游任务，成为当前研究的一个关键问题。

为了应对上述问题，本文提出了一种新的多阶段SAM（MS-SAM）方法，专门用于DR病变的自动分割。首先，我们冻结了SAM的原始图像编码器，并引入了低秩适应（Low-Rank Adaptation, LoRA）技术进行轻量级的微调。这种微调策略利用了SAM的通用能力，使得模型能够在不需要大量计算资源的情况下快速适应新的任务。LoRA技术能够在保持模型整体性能的同时，减少参数调整的复杂性，从而提高模型的训练效率和泛化能力。然而，仅依靠LoRA微调仍然难以解决病变尺度差异的问题，因此我们进一步引入了多尺度上采样模块（MSUM），以增强模型对不同尺度病变区域的感知能力。MSUM能够在保留病变区域语义信息的基础上，提升模型对多尺度特征的提取能力，从而更好地捕捉病变的细节。

其次，为了进一步提高模型对病变细节和语义信息的识别能力，我们设计了一种多视角提示编码器。该编码器能够自动生成密集的提示信息，从而减少对人工标注的依赖。我们采用了一种多视角策略，通过下采样生成远距离视角，通过分割图像为4个块生成近距离视角。这种方法能够实现多视角之间的深度视觉交互，从而增强模型对病变区域的感知能力。此外，多视角提示编码器能够有效引导图像编码器进行更精确的分割，提升模型在处理复杂病变结构时的鲁棒性。

最后，我们设计了一种多阶段掩码解码器，用于融合多尺度图像编码器和多视角提示编码器生成的特征。该解码器通过分阶段进行解码，将当前阶段预测的掩码作为下一阶段的提示，从而实现分层优化。这种分层优化机制能够显著提升模型对边缘区域和复杂结构的建模能力，提高分割的精确度。与大多数现有的SAM衍生方法相比，我们的方法更加注重图像编码器与提示编码器之间的互补性，并强调从粗略分割到精确边界细化的过渡过程。

本文的主要贡献包括以下几个方面：首先，我们提出了一种基于多尺度图像编码器和多视角提示编码器融合的MS-SAM方法，用于DR病变的自动分割。其次，我们设计了一种多尺度图像编码器，以捕捉病变区域的长距离依赖关系和多尺度特征。第三，我们引入了一种多视角提示编码器，能够自动生成密集提示，从而增强模型对病变细节和语义信息的识别能力。第四，我们设计了一种多阶段掩码解码器，通过分层解码机制进一步优化分割结果。第五，我们在公开的IDRiD和DDR数据集上进行了大量的定性和定量实验，实验结果表明，我们的方法在多个评估指标上均优于现有最先进的方法，包括平均精度-召回曲线下的面积（mAUPR）、平均Dice系数（mDice）和平均交并比（mIOU）。

在实验部分，我们首先介绍了数据集的组成和实现细节。IDRiD数据集包含了大量用于DR病变分割的视网膜图像，涵盖了多种病变类型，如微动脉瘤（MA）、出血（HE）、软渗出（SE）和硬渗出（EX）。这些图像在不同亮度和分辨率下采集，为模型提供了丰富的训练数据。DDR数据集则提供了更多的挑战，例如图像尺度的多样性以及病变区域的复杂性。为了评估模型的性能，我们选择了常用的评估指标，包括mAUPR、mDice和mIOU，这些指标能够全面反映模型在分割任务中的表现。此外，我们还进行了大量的定性分析，例如通过可视化分割结果来评估模型在捕捉病变细节方面的有效性。

在实验结果中，我们发现，与现有的最先进的方法相比，MS-SAM在IDRiD数据集上的mAUPR、mDice和mIOU分别提升了2.42%、1.91%和2.17%。而在DDR数据集上，这三个指标分别提升了5%、0.83%和3.22%。这些结果表明，我们的方法在处理DR病变分割任务时具有显著的优势。此外，我们还进行了消融实验，以验证各个模块对模型性能的影响。结果表明，多尺度图像编码器和多视角提示编码器的引入对提升分割效果起到了关键作用。同时，多阶段掩码解码器的分层优化机制也显著提高了模型在处理复杂病变结构时的性能。

在讨论部分，我们分析了MS-SAM在DR病变分割中的应用价值。DR病变的结构复杂、边界模糊，这使得传统的分割方法难以获得高精度的结果。而MS-SAM通过引入多尺度和多视角机制，能够更全面地捕捉病变的细节和语义信息，从而提高分割的准确性。此外，我们还探讨了该方法在实际应用中的潜力。由于MS-SAM减少了对人工标注的依赖，使得其在大规模视网膜图像筛查中具有更高的可行性。同时，该方法的自动化和精确性也能够提高筛查效率，减少医生的工作负担。

在结论部分，我们总结了MS-SAM方法的优势和应用前景。通过冻结原始SAM图像编码器并引入LoRA微调，我们能够在保持模型性能的同时，提高其对DR病变特征的适应能力。多尺度图像编码器和多视角提示编码器的结合，使得模型能够更全面地捕捉病变的多尺度特征和语义信息。多阶段掩码解码器的分层优化机制，则进一步提升了模型在分割复杂病变区域时的精度。实验结果表明，MS-SAM方法能够有效解决DR病变分割中的多个挑战，为临床诊断提供了更可靠的支持。

综上所述，本文提出的MS-SAM方法在DR病变分割任务中展现出显著的优势。通过引入多尺度和多视角机制，我们不仅提升了模型的分割能力，还增强了其对病变细节和语义信息的识别能力。此外，该方法在实际应用中具有更高的可行性，能够有效减少对人工标注的依赖，提高筛查效率。因此，MS-SAM方法为DR病变的自动分割提供了一种新的解决方案，具有重要的临床和科研价值。未来，我们计划进一步优化模型结构，提高其在更多医学图像分割任务中的适应能力，同时探索其在其他医学领域的应用潜力。

联系信箱：

粤ICP备09063491号

热点排行